Yang's Blog

Yang's Blog

朴素贝叶斯与聚类
发表于2026-05-03
朴素贝叶斯朴素贝叶斯介绍 复习常见概率的计算 知道贝叶斯公式 了解朴素贝叶斯是什么 了解拉普拉斯平滑系数的作用 【知道】常见的概率公式 条件概率: 表示事件A在另外一个事件B已经发生条件下的发生概率,P(A|B) 在女神喜欢的条件下,职业是程序员的概率? 女神喜欢条件下,有 2、3、4、7 共 4 个样本 4 个样本中,有程序员 3、4 共 2 个样本 则 P(程序员|喜欢) = 2/4 = 0.5 联合概率: 表示多个条件同时成立的概率,P(AB) = P(A) P(B|A)特征条件独立性假设:P(AB) = P(A) P(B) 职业是程序员并且体型匀称的概率? 数据集中,共有 7 个样本 职业是程序员有 1、3、4 共 3 个样本,则其概率为:3/7 在职业是程序员,体型是匀称有 3 共 1 个样本,则其概率为:1/3 则即是程序员又体型匀称的概率为:3/7 * 1/3 = 1/7 联合概率 + 条件概率: 在女神喜欢的条件下,职业是程序员、体...
集成学习
发表于2026-04-28|Python机器学习
集成学习集成学习简介学习目标: 1.知道集成学习是什么? 2.了解集成学习的分类 3.理解bagging集成的思想 4.理解boosting集成的思想 【知道】集成学习是什么?集成学习是机器学习中的一种思想,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型成为弱学习器(基学习器)。训练时,使用训练集依次训练出这些弱学习器,对未知的样本进行预测时,使用这些弱学习器联合进行预测。 传统机器学习算法 (例如:决策树,逻辑回归等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话:三个臭皮匠,赛过诸葛亮 集成学习通过建立几个模型来解决单一预测问题。它的工作原理是 生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 【了解】集成学习分类集成学习算法一般分为:bagging和boosting。 【理解】bagging集成Baggging ...
决策树
发表于2026-04-25|Python机器学习
决策树决策树简介学习目标 1.理解决策树算法的基本思想 2.知道构建决策树的步骤 【理解】决策树例子决策树算法是一种监督学习算法,英文是Decision tree。 决策树思想的来源非常朴素,试想每个人的大脑都有类似于if-else这样的逻辑判断,这其中的if表示的是条件,if之后的else就是一种选择或决策。程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。 比如:你母亲要给你介绍男朋友,是这么来对话的: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。 于是你在脑袋里面就有了下面这张图: 作为女孩的你在决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。 【知道】决策树简介决策树是什么? 决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果 决策树的建立过程: 1.特...
逻辑回归
发表于2026-04-22|Python机器学习
逻辑回归逻辑回归简介学习目标: 1.知道逻辑回归的应用场景 2.复习逻辑回归应用到的数学知识 【了解】应用场景 逻辑回归是解决二分类问题的利器 【熟悉】数学知识【知道】sigmoid函数 【理解】概率 【理解】极大似然估计核心思想: 设模型中含有待估参数w,可以取很多值。已经知道了样本观测值,从w的一切可能值中(选出一个使该观察值出现的概率为最大的值,作为w参数的估计值,这就是极大似然估计。(顾名思义:就是看上去那个是最大可能的意思) 举个例子: 假设有一枚不均匀的硬币,出现正面的概率和反面的概率是不同的。假定出现正面的概率为𝜃, 抛了6次得到如下现象 D = {正面,反面,反面,正面,正面,正面}。每次投掷事件都是相互独立的。 则根据产生的现象D,来估计参数𝜃是多少? 1234P(D|𝜃) = P {正面,反面,反面,正面,正面,正面} = P(正面|𝜃) P(正面|𝜃) P(正面|𝜃) P(正面|𝜃) P(正面|𝜃) P(正面|𝜃)=𝜃 *(1-𝜃)*(1-𝜃)𝜃*𝜃*𝜃 = 𝜃4(1 − 𝜃) 问题转...
线性回归
发表于2026-04-18|Python机器学习
线性回归线性回归介绍学习目标: 1.理解线性回归是什么? 2.知道一元线性回归和多元线性回归的区别 3.知道线性回归的应用场景 【理解】举个栗子假若有了身高和体重数据,来了播仔的身高,你能预测播仔体重吗? 这是一个回归问题,该如何求解呢? 思路:先从已知身高X和体重Y中找规律,再预测 •数学问题:用一条线来拟合身高和体重之间的关系,再对新数据进行预测 方程 Y = kX + b k160 + b = 56.3 – (1) k166 + b = 60.6 –- (2) 。。。。 k: 斜率 b:截距 若:y = 0.9 x + (-93) ​ 0.9*176 +(-93)= ? 【理解】线性回归线性回归(Linear regression)是利用 回归方程(函数) 对 一个或多个自变量(特征值)和因变量(目标值)之间 关系进行建模的一种分析方式。 注意事项: 1 为什么叫线性模型?因为求解的w,都是w的零次幂(常数项)所以叫成线性模型 2 在线性回归中,从数据中获取的规律其实就是学习权重系数w 3 某...
KNN算法
发表于2026-04-15|Python机器学习
KNN算法KNN算法简介【理解】KNN算法思想K-近邻算法(K Nearest Neighbor,简称KNN)。比如:根据你的“邻居”来推断出你的类别 KNN算法思想:如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别 思考:如何确定样本的相似性? 样本相似性:样本都是属于一个任务数据集的。样本距离越近则越相似。 利用K近邻算法预测电影类型 【知道】K值的选择 【知道】KNN的应用方式 解决问题:分类问题、回归问题 算法思想:若一个样本在特征空间中的 k 个最相似的样本大多数属于某一个类别,则该样本也属于这个类别 相似性:欧氏距离 分类问题的处理流程: 1.计算未知样本到每一个训练样本的距离 2.将训练样本根据距离大小升序排列 3.取出距离最近的 K 个训练样本 4.进行多数表决,统计 K 个样本中哪个类别的样本个数最多 5.将未知的样本归属到出现次数最多的类别 回归问题的处理流程: 1.计算未知样本到每一个训练样本的距离 2.将训练样本根据距离大小升序排列 3.取出距离最近的 K 个训练样本 ...
机器学习概述
发表于2026-04-15|Python机器学习
机器学习概述人工智能三大概念【知道】人工智能 Artificial Intelligence 人工智能 释义 - 仿智; 像人一样机器智能的综合与分析;机器模拟人类 【知道】机器学习 Machine Learning 释义:机器学习 Field of study that gives computers the ability to learn without being explicitly programmed 释义:让机器自动学习,而不是基于规则的编程(不依赖特定规则编程) 人类识别车:根据车的特征归纳出车的规律;来了一个新的图片,判断预测是否是车 机器学习识别车: 从数据中获取规律;来了一个新的数据,产生一个新的预测 【知道】深度学习深度学习(DL, Deep Learning) : ,也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物 【知道】三者之间的关系 机器学习是实现人工智能的一种途径 深度学习是机器学习的一种方法 【了解】学习方式【了解】基于规则的学习•基于规则的预测 : 程序员根据经验利用手工的if-else方式进行...
Matplotlib
发表于2026-04-12|Python数据分析
一、Matplotlib简介1.1 什么是MatplotlibMatplotlib是Python中最常用的数据分析可视化库,可快速绘制各类静态、高质量的图表(如折线图、柱状图、散点图、直方图等),支持自定义图表样式、标签、颜色等细节,是数据分析中“数据呈现”的核心工具。 Matplotlib与NumPy、Pandas的关系: Matplotlib可直接接收NumPy数组和Pandas的Series、DataFrame数据,无需额外数据格式转换; Pandas的绘图功能(如df.plot())底层就是基于Matplotlib实现的,可快速生成基础图表; 三者协同使用,可完成“数据读取(Pandas)→ 数据处理(NumPy+Pandas)→ 数据可视化(Matplotlib)”的完整数据分析流程。 核心模块:matplotlib.pyplot(通常简写为plt),是绘制图表的主要接口,提供了简洁的函数式绘图方法。 1.2 安装Matplotlib使用pip命令安装,与NumPy、Pandas兼容,建议安装最新稳定版: 12345# 安装最新版本Matplotlibpi...
Pandas
发表于2026-04-11|Python数据分析
一、Pandas简介1.1 什么是PandasPandas(Python Data Analysis Library)是基于NumPy开发的Python数据分析库,专门用于处理结构化数据(如表格数据、CSV文件、Excel文件等),提供了直观、高效的数据读取、清洗、筛选、分组、聚合等功能,是数据分析、数据挖掘的核心工具。 Pandas与NumPy的关系: Pandas基于NumPy实现,底层使用ndarray存储数据,继承了NumPy的高效运算能力; NumPy专注于多维数组运算,而Pandas专注于结构化数据处理,提供了更贴近实际业务的API; 两者协同使用,可高效完成从数据读取到分析的全流程。 核心数据结构:Series(一维结构化数据)、DataFrame(二维结构化数据,类似Excel表格)。 1.2 安装Pandas使用pip命令安装,建议同时安装openpyxl(用于读取Excel文件): 12345# 安装最新版本Pandas和openpyxlpip install pandas openpyxl# 安装指定版本(适配NumPy 1.24.3,避免版本...
Numpy
发表于2026-04-10|Python数据分析
一、NumPy简介1.1 什么是NumPyNumPy(Numerical Python)是Python中用于科学计算的核心库,主要用于处理高维数组(ndarray),并提供了大量的数学函数、线性代数、傅里叶变换、随机数生成等功能,是Pandas、Matplotlib等数据分析工具的基础。 核心优势: 高效的数组运算:基于C语言实现,运算速度远快于Python原生列表 简洁的API:提供直观的函数,简化数据处理流程 多维度支持:轻松处理1维、2维及更高维度的数组 与其他库无缝衔接:是数据分析、机器学习的必备工具 1.2 安装NumPy使用pip命令安装(最常用): 12345# 安装最新版本pip install numpy# 安装指定版本(如1.24.3,适配多数数据分析环境)pip install numpy==1.24.3 验证安装是否成功: 12import numpy as npprint(np.__version__) # 输出版本号,如1.24.3即安装成功 二、NumPy核心:ndarray数组2.1 什么是ndarrayndarray(N-d...
12…9
avatar
Yang
萌新打怪升级中......
文章
86
标签
197
分类
16
Follow Me
公告
This is my Blog
最新文章
朴素贝叶斯与聚类2026-05-03
集成学习2026-04-28
决策树2026-04-25
逻辑回归2026-04-22
线性回归2026-04-18
分类
  • Git1
  • Java72
    • ES3
    • JavaSE17
    • LangChain4J5
    • Linux1
    • Mybatis3
    • Nginx4
标签
Fanout KMeans RDB nginx Canal 故障转移 Aspect Feed流 Component 同步调用 内存淘汰 高可用 sigmoid函数 装饰者模式 状态模式 会话记忆 模板方法模式 ChatMemory RequestMapping 解释器模式 InputStream master 分页插件 Map DispatcherServlet regex 缓存穿透 ndarray Spring Framework 通知 C4.5 BaseMapper FactoryBean 打印流 访问者模式 Json处理 读写分离 单例模式 声明式事务 xml
归档
  • 五月 2026 1
  • 四月 2026 9
  • 一月 2026 5
  • 十月 2025 2
  • 九月 2025 2
  • 七月 2025 1
  • 六月 2025 1
  • 二月 2025 3
网站信息
文章数目 :
86
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By Yang框架 Hexo 7.3.0|主题 Butterfly 5.5.5-b1