数据集可以用两种不同的格式编写: Wide和Long 。

宽格式包含在第一列中不重复的值。

长格式包含在第一列中重复的值。

例如,考虑以下两个数据集,它们包含以不同格式表示的完全相同的数据:

请注意,在扩展数据集中,第一列中的每个值都是唯一的。

相反,在长数据集中,第一列中的值会重复。

两个数据集都包含完全相同的团队信息,但只是以不同的格式表示。

何时使用宽数据或长数据

根据您想要对数据执行的操作,以宽格式或长格式呈现数据可能更有意义。

何时使用大幅面

一般来说,如果您正在分析数据,通常会使用宽数据格式。

例如,如果您想了解球队的平均得分、助攻和篮板数,通常更容易获得大格式的数据:

您在现实世界中遇到的大多数数据集也将以宽格式保存,因为我们的大脑更容易解释。

例如,在上面的格式中,很容易读取同一行上每个球队的得分、助攻和篮板值。

何时使用长格式

通常,如果您使用R等统计软件查看图中的多个变量,通常需要将数据转换为长格式,以便软件可以创建绘图。

对于实际示例,请查看这些 R 教程,其中数据必须采用长格式才能创建某些类型的绘图:

如何在 R 中绘制多个密度图

如何在 R 中绘制多列

如何在 R 中创建热图

有时,如果您也使用Python ,则可能需要将数据重新调整为不同的格式。

以下教程解释了如何在 Python 中重塑数据框:

如何在 Python 中将数据从长数据重塑为宽数据

如何在 Python 中将数据从宽数据重塑为长数据

其他资源

以下教程提供了有关其他常用统计术语的信息:

统计学中的观察是什么?统计学中什么是协变量?统计中的残差是什么?