Yang's Blog

Yang's Blog

集成学习
发表于2026-04-28|Python机器学习
集成学习集成学习简介学习目标: 1.知道集成学习是什么? 2.了解集成学习的分类 3.理解bagging集成的思想 4.理解boosting集成的思想 【知道】集成学习是什么?集成学习是机器学习中的一种思想,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型成为弱学习器(基学习器)。训练时,使用训练集依次训练出这些弱学习器,对未知的样本进行预测时,使用这些弱学习器联合进行预测。 传统机器学习算法 (例如:决策树,逻辑回归等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话:三个臭皮匠,赛过诸葛亮 集成学习通过建立几个模型来解决单一预测问题。它的工作原理是 生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 【了解】集成学习分类集成学习算法一般分为:bagging和boosting。 【理解】bagging集成Baggging ...
决策树
发表于2026-04-25|Python机器学习
决策树决策树简介学习目标 1.理解决策树算法的基本思想 2.知道构建决策树的步骤 【理解】决策树例子决策树算法是一种监督学习算法,英文是Decision tree。 决策树思想的来源非常朴素,试想每个人的大脑都有类似于if-else这样的逻辑判断,这其中的if表示的是条件,if之后的else就是一种选择或决策。程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。 比如:你母亲要给你介绍男朋友,是这么来对话的: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。 于是你在脑袋里面就有了下面这张图: 作为女孩的你在决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。 【知道】决策树简介决策树是什么? 决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果 决策树的建立过程: 1.特...
逻辑回归
发表于2026-04-22|Python机器学习
逻辑回归逻辑回归简介学习目标: 1.知道逻辑回归的应用场景 2.复习逻辑回归应用到的数学知识 【了解】应用场景 逻辑回归是解决二分类问题的利器 【熟悉】数学知识【知道】sigmoid函数 【理解】概率 【理解】极大似然估计核心思想: 设模型中含有待估参数w,可以取很多值。已经知道了样本观测值,从w的一切可能值中(选出一个使该观察值出现的概率为最大的值,作为w参数的估计值,这就是极大似然估计。(顾名思义:就是看上去那个是最大可能的意思) 举个例子: 假设有一枚不均匀的硬币,出现正面的概率和反面的概率是不同的。假定出现正面的概率为𝜃, 抛了6次得到如下现象 D = {正面,反面,反面,正面,正面,正面}。每次投掷事件都是相互独立的。 则根据产生的现象D,来估计参数𝜃是多少? 1234P(D|𝜃) = P {正面,反面,反面,正面,正面,正面} = P(正面|𝜃) P(正面|𝜃) P(正面|𝜃) P(正面|𝜃) P(正面|𝜃) P(正面|𝜃)=𝜃 *(1-𝜃)*(1-𝜃)𝜃*𝜃*𝜃 = 𝜃4(1 − 𝜃) 问题转...
线性回归
发表于2026-04-18|Python机器学习
线性回归线性回归介绍学习目标: 1.理解线性回归是什么? 2.知道一元线性回归和多元线性回归的区别 3.知道线性回归的应用场景 【理解】举个栗子假若有了身高和体重数据,来了播仔的身高,你能预测播仔体重吗? 这是一个回归问题,该如何求解呢? 思路:先从已知身高X和体重Y中找规律,再预测 •数学问题:用一条线来拟合身高和体重之间的关系,再对新数据进行预测 方程 Y = kX + b k160 + b = 56.3 – (1) k166 + b = 60.6 –- (2) 。。。。 k: 斜率 b:截距 若:y = 0.9 x + (-93) ​ 0.9*176 +(-93)= ? 【理解】线性回归线性回归(Linear regression)是利用 回归方程(函数) 对 一个或多个自变量(特征值)和因变量(目标值)之间 关系进行建模的一种分析方式。 注意事项: 1 为什么叫线性模型?因为求解的w,都是w的零次幂(常数项)所以叫成线性模型 2 在线性回归中,从数据中获取的规律其实就是学习权重系数w 3 某...
KNN算法
发表于2026-04-15|Python机器学习
KNN算法KNN算法简介【理解】KNN算法思想K-近邻算法(K Nearest Neighbor,简称KNN)。比如:根据你的“邻居”来推断出你的类别 KNN算法思想:如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别 思考:如何确定样本的相似性? 样本相似性:样本都是属于一个任务数据集的。样本距离越近则越相似。 利用K近邻算法预测电影类型 【知道】K值的选择 【知道】KNN的应用方式 解决问题:分类问题、回归问题 算法思想:若一个样本在特征空间中的 k 个最相似的样本大多数属于某一个类别,则该样本也属于这个类别 相似性:欧氏距离 分类问题的处理流程: 1.计算未知样本到每一个训练样本的距离 2.将训练样本根据距离大小升序排列 3.取出距离最近的 K 个训练样本 4.进行多数表决,统计 K 个样本中哪个类别的样本个数最多 5.将未知的样本归属到出现次数最多的类别 回归问题的处理流程: 1.计算未知样本到每一个训练样本的距离 2.将训练样本根据距离大小升序排列 3.取出距离最近的 K 个训练样本 ...
机器学习概述
发表于2026-04-15|Python机器学习
机器学习概述人工智能三大概念【知道】人工智能 Artificial Intelligence 人工智能 释义 - 仿智; 像人一样机器智能的综合与分析;机器模拟人类 【知道】机器学习 Machine Learning 释义:机器学习 Field of study that gives computers the ability to learn without being explicitly programmed 释义:让机器自动学习,而不是基于规则的编程(不依赖特定规则编程) 人类识别车:根据车的特征归纳出车的规律;来了一个新的图片,判断预测是否是车 机器学习识别车: 从数据中获取规律;来了一个新的数据,产生一个新的预测 【知道】深度学习深度学习(DL, Deep Learning) : ,也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物 【知道】三者之间的关系 机器学习是实现人工智能的一种途径 深度学习是机器学习的一种方法 【了解】学习方式【了解】基于规则的学习•基于规则的预测 : 程序员根据经验利用手工的if-else方式进行...
Matplotlib
发表于2026-04-12|Python数据分析
一、Matplotlib简介1.1 什么是MatplotlibMatplotlib是Python中最常用的数据分析可视化库,可快速绘制各类静态、高质量的图表(如折线图、柱状图、散点图、直方图等),支持自定义图表样式、标签、颜色等细节,是数据分析中“数据呈现”的核心工具。 Matplotlib与NumPy、Pandas的关系: Matplotlib可直接接收NumPy数组和Pandas的Series、DataFrame数据,无需额外数据格式转换; Pandas的绘图功能(如df.plot())底层就是基于Matplotlib实现的,可快速生成基础图表; 三者协同使用,可完成“数据读取(Pandas)→ 数据处理(NumPy+Pandas)→ 数据可视化(Matplotlib)”的完整数据分析流程。 核心模块:matplotlib.pyplot(通常简写为plt),是绘制图表的主要接口,提供了简洁的函数式绘图方法。 1.2 安装Matplotlib使用pip命令安装,与NumPy、Pandas兼容,建议安装最新稳定版: 12345# 安装最新版本Matplotlibpi...
Pandas
发表于2026-04-11|Python数据分析
一、Pandas简介1.1 什么是PandasPandas(Python Data Analysis Library)是基于NumPy开发的Python数据分析库,专门用于处理结构化数据(如表格数据、CSV文件、Excel文件等),提供了直观、高效的数据读取、清洗、筛选、分组、聚合等功能,是数据分析、数据挖掘的核心工具。 Pandas与NumPy的关系: Pandas基于NumPy实现,底层使用ndarray存储数据,继承了NumPy的高效运算能力; NumPy专注于多维数组运算,而Pandas专注于结构化数据处理,提供了更贴近实际业务的API; 两者协同使用,可高效完成从数据读取到分析的全流程。 核心数据结构:Series(一维结构化数据)、DataFrame(二维结构化数据,类似Excel表格)。 1.2 安装Pandas使用pip命令安装,建议同时安装openpyxl(用于读取Excel文件): 12345# 安装最新版本Pandas和openpyxlpip install pandas openpyxl# 安装指定版本(适配NumPy 1.24.3,避免版本...
Numpy
发表于2026-04-10|Python数据分析
一、NumPy简介1.1 什么是NumPyNumPy(Numerical Python)是Python中用于科学计算的核心库,主要用于处理高维数组(ndarray),并提供了大量的数学函数、线性代数、傅里叶变换、随机数生成等功能,是Pandas、Matplotlib等数据分析工具的基础。 核心优势: 高效的数组运算:基于C语言实现,运算速度远快于Python原生列表 简洁的API:提供直观的函数,简化数据处理流程 多维度支持:轻松处理1维、2维及更高维度的数组 与其他库无缝衔接:是数据分析、机器学习的必备工具 1.2 安装NumPy使用pip命令安装(最常用): 12345# 安装最新版本pip install numpy# 安装指定版本(如1.24.3,适配多数数据分析环境)pip install numpy==1.24.3 验证安装是否成功: 12import numpy as npprint(np.__version__) # 输出版本号,如1.24.3即安装成功 二、NumPy核心:ndarray数组2.1 什么是ndarrayndarray(N-d...
LangChain4j之RAG
发表于2026-01-07|JavaLangChain4J
RAG (检索增强生成)LLM 的知识仅限于它已经训练过的数据。 如果你想让 LLM 了解特定领域的知识或专有数据,你可以: 使用 RAG,我们将在本节中介绍 用你的数据微调 LLM 结合 RAG 和微调 什么是 RAG?简单来说,RAG 是一种在发送给 LLM 之前,从你的数据中找到并注入相关信息片段到提示中的方法。 这样 LLM 将获得(希望是)相关信息,并能够使用这些信息回复, 这应该会降低产生幻觉的概率。 相关信息片段可以使用各种信息检索方法找到。 最流行的方法有: 全文(关键词)搜索。这种方法使用 TF-IDF 和 BM25 等技术, 通过匹配查询(例如,用户提问的内容)中的关键词与文档数据库进行搜索。 它根据每个文档中这些关键词的频率和相关性对结果进行排名。 向量搜索,也称为”语义搜索”。 文本文档使用嵌入模型转换为数字向量。 然后根据查询向量和文档向量之间的余弦相似度 或其他相似度/距离度量找到并排序文档, 从而捕捉更深层次的语义含义。 混合搜索。结合多种搜索方法(例如,全文 + 向量)通常可以提高搜索的有效性。 目前,本页主要关注向量搜索...
12…9
avatar
Yang
萌新打怪升级中......
文章
84
标签
194
分类
16
Follow Me
公告
This is my Blog
最新文章
集成学习2026-04-28
决策树2026-04-25
逻辑回归2026-04-22
线性回归2026-04-18
KNN算法2026-04-15
分类
  • Git1
  • Java72
    • ES3
    • JavaSE17
    • LangChain4J5
    • Linux1
    • Mybatis3
    • Nginx4
标签
单例模式 UML QuickList 信息熵 HyperLogLog 状态模式 原型模式 sorted set IoC容器 AOF 梯度下降 命令模式 慢查询 Cart RequestMapping FactoryBean 同步调用 访问者模式 DSL FunctionCall ThreadPool 批处理 ControllerAdvice 声明式事务 Redis入门 适配器模式 Json处理 全量同步 AiService Set 特征工程 悲观锁 master OutputStream 文档 nginx 代理模式 转换流 依赖注入 OpenResty
归档
  • 四月 2026 9
  • 一月 2026 5
  • 十月 2025 2
  • 九月 2025 2
  • 六月 2025 1
  • 二月 2025 3
  • 十二月 2024 2
  • 十一月 2024 1
网站信息
文章数目 :
84
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By Yang框架 Hexo 7.3.0|主题 Butterfly 5.5.5-b1