PCA

名词解释

中文 英文 解释
主成分 Principal Components 主成分是原始变量的线性组合,它们被选择以捕获数据中的最大方差,并且彼此之间是正交的。
正交 Orthogonal 彼此垂直,即无线性相关
特征值 Eigen values 特征值表示协方差矩阵的特征向量在各个方向上的重要程度,决定了每个主成分所解释的方差大小。
特征向量 Eigen vectors 特征向量是协方差矩阵的线性无关向量,描述了数据集中的主要变化方向,对应于每个特征值
协方差矩阵 Covariance Matrix 协方差矩阵衡量了数据集中不同变量之间的协方差,是PCA计算中的重要步骤,用于找出数据中的主要方向。
维度 Dimension Each variable could be considered as a different dimension. If you have more than 3 variables in your data sets, it could be very difficult to visualize a multi-dimensional hyperspace.
冗余 Redundancy 在PCA中,冗余指的是原始变量集内部由于多重共线性或其他形式的相关性而存在的信息重复现象,通过主成分分析可以消除这种冗余性,使得数据分析更加简洁有效。

主成分分析的作用

主成分分析(Principal Component Analysis,PCA)是一种统计方法和技术,主要用于数据降维、特征提取和数据分析。它的主要目标和作用包括:

  1. 数据降维
    • PCA通过线性变换将原始的高维数据集转换为一组新的、互相正交(线性不相关)的低维变量,这些新变量被称为“主成分”(Principal Components, PC)。
    • 这种变换使得在新坐标系中的第一个主成分具有最大的方差,也就是说它尽可能多地保留了原数据集中的信息量。
    • 每个后续的主成分按其解释的方差大小递减排序,确保前几个主成分就能包含原始数据集中大部分的变异信息。
  2. 特征提取
    • 在处理大量可能冗余或高度相关的特征时,PCA可以帮助识别数据中的主要趋势和结构,从而选择最重要的特征(主成分)来代表原始数据。
    • 这有助于减少模型的复杂度,提高预测或分类任务的效果,并降低过拟合的风险。
  3. 可视化和理解数据
    • 对于高维数据,直接可视化非常困难。PCA可以通过选择前几个主成分进行二维或三维可视化,帮助人们更好地理解和把握数据集内部的模式和结构。
  4. 去噪
    • 在一定程度上,PCA可以通过忽略那些仅包含较小方差(即噪声或非主要趋势)的主成分来达到去噪效果。

PCA的具体实施步骤包括: - 对原始数据进行标准化处理; - 计算协方差矩阵或者相关系数矩阵; - 计算协方差矩阵的特征值和对应的特征向量; - 根据特征值大小选取最重要的特征向量作为主成分; - 将原始数据投影到这些主成分构成的新空间中。

在实际应用中,PCA被广泛应用于图像处理、信号处理、生物信息学、金融分析等多个领域。

Main purpose of principal component analysis

Taken together, the main purpose of principal component analysis is to:

  • identify hidden pattern in a data set,
  • reduce the dimensionnality of the data by removing the noise and redundancy in the data,
  • identify correlated variables

The goal of PCA is to identify directions (or principal components) along which the variation in the data is maximal.

In other words, PCA reduces the dimensionality of a multivariate data to two or three principal components, that can be visualized graphically, with minimal loss of information.

Note that, the PCA method is particularly useful when the variables within the data set are highly correlated.