热门标签: 美国大学
2024-01-09 阅读量:450 留美汇
学习关于探索性数据分析(EDA)的一切,这是一种用于分析和总结数据集的方法。这篇文章为大家讲解探索性数据分析的目的是什么?美国课程辅导
一、什么是探索性数据分析?
探索性数据分析(EDA)是数据科学家用于分析和调查数据集并总结其主要特征的方法,通常使用数据可视化方法。它有助于确定如何最好地操作数据源以获得所需的答案,使数据科学家更容易发现模式、发现异常、测试假设或检查前提条件。
EDA主要用于查看数据在形式建模或假设测试任务之外可以揭示什么,并提供对数据集变量及其之间关系的更好理解。它还可以帮助确定您正在考虑进行数据分析的统计技术是否合适。探索性数据分析最初是由美国数学家约翰·图基(John Tukey)在1970年代开发的,至今仍然是数据发现过程中广泛使用的方法。
探索性数据分析在数据科学中为什么重要?
EDA的主要目的是在做任何假设之前查看数据。它有助于识别明显的错误,更好地理解数据中的模式检测异常事件或异常事件,找到变量之间的有趣关系。数据科学家可以使用探索性分析来确保他们产生的结果对任何期望的业务结果和目标都是有效的。EDA还通过确认他们提出了正确的问题,帮助利益相关者。EDA可以回答有关标准偏差、分类变量和置信区间的问题。一旦EDA完成并得出见解,其特征就可以用于更复杂的数据分析或建模,包括机器学习。
二、探索性数据分析工具
使用EDA工具可以执行的特定统计功能和技术包括:聚类和降维技术,用于创建包含许多变量的高维数据的图形显示对原始数据集中每个字段进行单变量可视化,同时提供摘要统计信息。允许您评估数据集中每个变量与目标变量之间关系的双变量可视化和摘要统计信息。多变量可视化,用于绘制和理解数据中不同字段之间的相互作用。K均值聚类是一种无监督学习的聚类方法,根据每个组的中心点与数据点之间的距离将数据点分配到K组,即聚类数。距离最近的数据点将被聚集在同一类别下。K均值聚类通常用于市场分割、模式识别和图像压缩。
预测模型,例如线性回归,使用统计和数据来预测结果
探索性数据分析的类型
三、有四种主要类型的EDA:
1.单变量非图形。这是数据分析的最简单形式,被分析的数据仅包含一个变量。由于它是单一变量,因此不涉及原因或关系。单变量分析的主要目的是描述数据并找到其中存在的模式
2.单变量图形。非图形方法不能提供数据的完整图像,因此需要图形方法。常见的单变量图形包括-茎叶图,显示所有数据值和分布形状。
-直方图,每个柱代表一定值范围的频率(计数)或比例(计数/总计数)-箱线图,以图形方式描绘最小、第一四分位、中位数、第三四分位和最大值的五数总结。3.多变量非图形:多变量数据来自多个变量。多变量非图形EDA技术通常通过列联表或统计学来显示数据的两个或多个变量之间的关系,
4.多变量图形:多变量数据使用图形来显示两个或多个数据集之间的关系。最常用的图形是分组的条形图或柱状图,其中每个组代表一个变量的一个水平,每个组内的每个条形代表另一个变量的水平。其他常见的多变量图形包括:
散点图,用于在水平和垂直轴上绘制数据点,以显示一个变量受另一个变量影响的程度。
多变量图,是因子和响应之间关系的图形表示。
趋势图,是随时间绘制的数据的折线图,
泡沫图,是在二维图上显示多个圆圈(泡沫)的数据可视化。
-热力图,是通过颜色来描绘数据的图形表示。
四、探索性数据分析工具
包括:用于创建EDA的一些常见数据科学工具
1.Python:一种解释性的、面向对象的编程语言,具有动态语义。其高级内置数据结构,与动态类型和动态绑定相结合,使其非常适合快速应用程序开发,以及用作脚本或粘合语言将现有组件连接在一起。Python和EDA可以一起使用,以识别数据集中的缺失值,这对于决定如何处理机器学习中的缺失值至关重要。
2.R:一种用于统计计算和图形的自由软件环境的开源编程语言,由R基金会支持。在数据科学中,R语言广泛用于开发统计观察和数据分析
留美汇国际教育团队包括数百位来自全球顶尖名校名师,全方位弥补学校师资短缺的空档;无论同学们身处AP/A-Level/IB/GCSE哪一个国际课程体系;是需要课程预修/课后培优/难点剖析或是专业专项辅导,都一定能从我们的团队里找出一位最适合你的精英导师,并享受最高水准的专业课程培优课堂。留美汇的名校导师们将为有需要的同学提供最专业的学业指导,帮助每一个同学提高学习效率,更快更好的完成学习任务,为今后的留学进程打下坚实的基础。