更新时间:2022-11-08 来源:黑马程序员 浏览量:
当我们日常用Python做数据分析的时候,会利用Python的基础语法来实现我们需要的功能。除此之外,技术人员也会通过第三方库已经封装的功能,更快速、高效地处理和分析数据。Python常见的数据分析库包括Pandas、NumPy、SciPy、Statsmodels、Gensim、scikit_learn。
Pandas(Python Data Analysis Library)是一个用于Python数据分析的库,Pandas主要的作用是进行数据分析和预处理。和R语言中的数据框类似,Pandas可以提供用于进行结构化数据分析的二维表格型数据结构,可以处理类似于数据库中的切片、切块、聚合、选择子集等比较精细化的操作,来进行数据分析。同时,Pandas还可以提供时间序列的功能,这项功能在金融行业的数据分析中是比较常见的。
Python中用于进行科学计算的基础库NumPy(Numeric Python),是Python用来进行数据计算的关键库之一,也是许多第三方库的依赖库。
SciPy(Scientific Computing Tools for Python),这是一组针对解决不同场景科学和工程计算的库,该库在数学、函数等有关方面应用的效果更为显著,比如我们知道的求解微分方程和积分等。
Statsmodels是以Python语言为基础的统计建模和计量经济学库,其中包含统计模型估计和统计测试、描述性统计,集成了时间序列分析模型、非参数估计、生存分析、线性回归模型、离散数据分布模型、主成分分析以及核密度估计,兼有广泛的统计测试和绘图功能。
Gensim,业内公认的专业主题模型Python语言库,用来提供可扩展统计语义、分析纯文本语义结构以及检索语义上类似的文档。同学们可以在终端命令行中使用pip install gensim命令安装该库。
scikit_learn(简称sklearn),该库是Python中用来进行数据挖掘和机器学习的主要库之一。可以说它是一个以Python语言为基础的机器学习工具库,库中内置了监督式学习和非监督式学习两类机器学习方法,包括各种回归、k近邻、决策树、叶贝斯、聚类、分类、流失学习、混合高斯模型、人工神经网络、集成方法等主流分析方法;同时支持预置数据集、数据预处理、模型选择和评估等方法,是一个非常完整的机器学习工具库。
以上这些库除了Gensim外,均在Anaconda中默认安装了,在Python数据分析中,通常还会涉及到数据读写与预处理、可视化和与其他程序进行交互的库,后续笔者会一一介绍。