特征工程 (Feature Enginering)基础知识2

news/2025/2/26 22:20:31

目录

  • 特征工程
    • 数值型特征编码
      • 常用的数值型特征处理方法
    • log变换
      • 例:广告费用与销量预测
    • 区间量化
      • 例:根据分位数进行区间量化
    • 1、数据预处理
      • Scikit-learn中常用的特征缩放器
      • Scikit-learn中特征缩放器的API
    • 2、数据标准化
      • 类别型特征编码
      • 标签编码
      • 独热编码
        • Scikit-learn中的OneHotEncoder
        • 例:独热编码
      • 计数编码
        • 两类分类的计数编码
        • 例1:两类分类的计数编码
        • 例2:两类分类的计数编码
      • 稀有取值的处理
      • 信息泄漏及其防范
      • 哈希编码
      • 嵌入编码
      • 推荐系统中的Wide & Deep模型
      • 如何获取重要特征
        • 领域专家的知识
        • 通用规则
        • 深度学习自动学习特征
    • 3、特征构造
    • 4、特征抽取
      • 关于维度
        • 数据空间
          • 数据空间的维度可能非常大
          • 高维数据示例
        • 维度灾难
      • 降维
        • 例1:手写字符识别
          • 特征表示
          • 本质结构参数
          • 图示说明
        • 例2:文本文档分析
          • 文本表示
          • 潜在的结构参数
          • 示例
      • 降维方法概览
        • 数据集表示
        • 降维方法
      • 主成分分析
        • 关键步骤
        • 目的
        • 应用
        • 内积和投影
          • 两个向量 x \mathbf{x} x w \mathbf{w} w的内积:
          • 几何意义
          • 图示
        • 向量表示:在基方向的投影(与基的内积)
          • 例子
          • 向量描述
          • 基向量的性质
        • 向量在新基下的表示
          • 例子
        • 批处理:矩阵乘法
          • 矩阵表示
          • 例子
          • 新的基矩阵
          • 计算新基下的坐标
        • 矩阵乘法
        • 线性降维的一般形式
        • 主成分分析(PCA)目标函数1:最小化重建误差
        • PCA 目标函数1:推导
        • PCA 目标函数推导:最小重构误差
          • 数学表达式
          • 目标解释
          • 图示解释
          • 结论
        • 主成分分析(PCA)目标函数2:最大投影后的方差
        • PCA目标函数计算
        • 求解PCA
          • 算法过程:
        • PCA步骤图解
        • 例:PCA 应用
        • (续)例:PCA 应用
        • 原始维度不是非常大时表现良好
        • 附:矩阵的秩和迹
          • 矩阵
          • 矩阵的迹
        • 矩阵分解
        • 特征值分解
        • 奇异值分解 (SVD)
        • 特征值或奇异值的物理意义
        • 奇异值向量的含义
        • SVD → PCA
        • 求解PCA(2)
          • 算法过程:
        • 参数 D ′ D' D
        • PCA应用(1):人脸识别
        • PCA用于人脸识别:特征脸
        • PCA用于人脸识别:特征脸
        • 计算特征脸
        • 例:鸢尾花分类
        • (续)例:鸢尾花分类
        • PCA 总结
        • sklearn中的降维方法
          • 2.5. 分解信号为组件(矩阵分解问题)
    • 5、特征选择
      • 随机特征选择
      • 手工特征选择
      • 过滤式选择
      • 信息增益(Information Gain)
      • χ 2 \chi^2 χ2统计量
      • 例:糖尿病风险预测
        • 特征与标签之间互信息
        • 特征与标签之间的关系:可视化
      • 例:特征选择:文本分类
      • 包裹式特征选择
      • Scikit-learn支持递归特征消除:RFE
      • 嵌入式选择
      • 例:采用决策树模型判断鸢尾花类别
      • 例:嵌入式维度选择
      • Scikit-learn支持嵌入式特征选择:SelectFromModel
    • 总结

特征工程

  特征工程是机器学习项目中的一个关键步骤,它充当原始数据与学习器之间的桥梁。

  - 特征工程的重要性:特征工程是原始数据与学习器的连接器。它涉及将原始数据转换成适合机器学习模型处理的格式。

  - 确定学习器类型:首先,我们根据原始数据的特性初步确定学习器的类型。这是因为不同的数据类型和分布可能需要不同类型的模型来最有效地进行学习。

  - 数据转换的必要性:原始数据可能不能直接输入到学习器中。例如,字符串类型的数据不能直接送入到线性分类模型中,因为这些模型需要数值输入。因此,我们需要通过特征工程将这些非数值数据转换成数值形式,如通过独热编码(one-hot encoding)或标签编码(label encoding)。

  特征工程不仅包括数据类型的转换,还可能涉及特征选择、特征缩放、特征创建等多个方面,以确保数据能够有效地支持模型的学习过程。

  特征工程是机器学习中至关重要的一环,它直接影响模型的性能。特征工程主要包括以下几个步骤:

  - 数据预处理:这是特征工程的第一步,包括清洗数据、处理缺失值、标准化或归一化等,以确保数据的质量。

  


http://www.niftyadmin.cn/n/5869222.html

相关文章

【实战中提升自己】防火墙篇之双ISP切换与VRRP切换对于用户的体验

! 拓扑与说明 某公司的网络架构,这样的架构在目前的网络中是在常见的,假设您接收一个这样的网络,应该如何部署,该实战系列,就是一步一步讲解,如何规划、设计、部署这样一个环境,这…

蓝桥杯之日期题

文章目录 1.蓝桥杯必备知识点2. 题型13.需求2 1.蓝桥杯必备知识点 蓝桥杯是一个面向全国高校计算机相关专业学生的学科竞赛,涵盖多个赛道,常见的有软件类(如 C/C 程序设计、Java 软件开发、Python 程序设计)和电子类(…

docker 安装 seafile 企业云盘

以下是 Docker 安装 Seafile 的详细步骤,涵盖基础安装和常用配置: 一、准备工作 安装 Docker 和 Docker Compose 确保系统已安装 Docker 和 Docker Compose。 创建工作目录 mkdir ~/seafile && cd ~/seafile二、使用官方简化镜像 Seafile 提供…

《深度学习实战》第2集:卷积神经网络(CNN)与图像分类

《深度学习实战》第2集:卷积神经网络(CNN)与图像分类 引言 卷积神经网络(Convolutional Neural Network, CNN)是深度学习在计算机视觉领域的核心工具。从早期的 LeNet 到现代的 ResNet 和 Vision Transformer&#xf…

全市场大模型分类及对比分析报告

全市场大模型分类及对比分析报告 1. 引言 随着人工智能技术的飞速发展,大模型(Large Models)已成为推动AI进步的核心力量。大模型凭借其强大的计算能力和海量数据处理能力,在自然语言处理(NLP)、计算机视…

游戏引擎学习第121天

仓库:https://gitee.com/mrxiao_com/2d_game_3 重新介绍 Intel 架构代码分析器 接下来,我们展示了一个新的工具,这个工具用于分析处理器在执行代码时的表现。这个工具的工作方式是通过在可执行文件中插入标记,然后使用这些标记来分析和跟踪…

使用open-webui调用大模型

想要更进一步了解open-webui可以自行查资料,本文仅提供安装步骤。 一、<一定一定要!>安装python 3.11 使用其他版本会出现不兼容,最终下载失败 (本人,试过3.12和3.8两个版本,参考其他博主踩的坑,大概率只能使用3.11) 1、方法一:官网下载python3.11 链接…

【大厂AI实践】微软:基于预训练的自然语言生成在搜索与广告中的应用

【大厂AI实践】微软&#xff1a;基于预训练的自然语言生成在搜索与广告中的应用 &#x1f31f; 嗨&#xff0c;你好&#xff0c;我是 青松 &#xff01; &#x1f308; 自小刺头深草里&#xff0c;而今渐觉出蓬蒿。 NLP Github 项目推荐&#xff1a; 【AI 藏经阁】&#xff1a…