箱线图(Box plot)也称箱须图(Box-whisker Plot),是利用数据中的三个统计量:第一四分位数、中位数、第三四分位数来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息。作为一种数据分析的手段,箱线图简单易用,适合于:
(1) 建立过程性能基准
(2) 识别异常点。
在画箱线图时用到的基本概念:
(1)四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。
(2) 第一四分位数 (Q1),又称“四分之一位数”或”下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
(3)第二四分位数 (Q2),又称中位数(Median)将数据排序(从大到小或从小到大)后,位置在最中间的数值。当样本数为奇数时,中位数=第(N+1)/2个数据;当样本数为偶数时,中位数为第N/2个数据与第N/2+1个数据的算术平均值 。它是一组数据中间位置上的代表值,不受数据极端值的影响。因此某些数据的变动对它的中位数影响不大。当一组数据中的个别数据变动较大时,可用它来描述其集中趋势。:
(4)第三四分位数 (Q3),又称“四分之三位数”或”上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
(5) 四分位数间距(IQR,interquartile range),又称”内距”,是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小。
(6) 内限:Q1-1.5I*QR,Q3+1.5*IQR称为内限。
(7) 异常点(outliers):超出内限的值称为异常点。
画箱线图时,上须线的终点为在min(Q3+1.5*IQR,最大值),下须线的终点为max(Q1-1.5*IQR,最小值)
通过箱线图我们可以不管样本数据的分布类型,基于中位数、内限建立历史数据的性能基线。凡是超出内限的数据则认为是异常点。
在EXCEL中有2个函数可以计算四分位数:QUARTILE(array,quart)和PERCENTILE(array,k)。
举例如下:
有10个数如下:2,3,5,10,12,13,14,34,34,36。置于单元格A1到A10中。
采用QUARTILE函数分别计算如下:
下四分位数:QUARTILE(A1:A10,1)=6.25
中位数:QUARTILE(A1:A10,2)=12.5
上四分位数:QUARTILE(A1:A10,3)=29
采用PERCENTILE函数分别计算如下:
下四分位数:PERCENTILE (A1:A10,0.25)=6.25
中位数:PERCENTILE (A1:A10,0.5)=12.5
上四分位数:PERCENTILE (A1:A10,0.75)=29
中位数还可以采用median()函数计算之。
计算四分位数的方法有多种,在EXCEL中,求四分位数的算法如下:
找到第k小的数值,k=(quart/4)*(n-1))+1 ,quart为0到4之间的一个整数,即第quart四分位数。n位这组数中数值的个数。如果k不是整数,则下取整,并记录截去的小数位f。在数组中找到第k,k+1个整数,按下列公式计算:
Output = a[k]+(f*(a[k+1]-a[k]))
a[k] = 第k小的数值;
a[k+1] = 第k+1小的数值;
对于上面给出的序列,如果求下四分位数,则按上述的算法,计算结果如下:
k=trunk(1/4*(10-1)+1)=3
f=1/4*(10-1)+1-k=0.25
下四分位数=5+(10-5)*f=6.25
注意:在MINITAB中计算四分位数的算法与EXCEL的算法不同,因此结果也是不同的。为简单的目的,我们在实际中可以采用EXCEL的结果。
对于2-3级的企业,采用箱线图建立过程性能基线与采用控制图建立过程性能基线相比,箱线图法不需要判断数据的分布类型,不需要将数据点按时间排序,不需要计算标准差,简单易行,具有很强的实用性。如某企业积累了18个项目的系统测试的缺陷密度,得到如下的数据:
编号
|
缺陷密度(个/KLOC)
|
1
|
1.37
|
2
|
1.57
|
3
|
0.70
|
4
|
0.47
|
5
|
0.89
|
6
|
0.67
|
7
|
0.21
|
8
|
0.67
|
9
|
0.89
|
10
|
0.25
|
11
|
0.63
|
12
|
0.60
|
13
|
0.13
|
14
|
0.47
|
15
|
2.38
|
16
|
0.33
|
17
|
1.11
|
18
|
0.00
|
采用箱线图法建立基线,在EXCEL中计算结果如下:
Q1=0.37
Q2=0.65
Q3=0.89
IQR=0.52
于是建立基线如下:
下限:0 (负数无意义,故取值为0)
中值:0.65
上限:1.67
分享到:
相关推荐
Origin是由OriginLab公司开发的一个科学绘图、数据分析软件,支持多种格式的数据,包括ASCII、Excel、NI TDM等等。图形输出格式多样,例如JPEG,GIF,EPS,TIFF等 本期教程讲解如何使用origin绘制箱线图,可视化。
本资源包含基于Matlab的boxplot函数进行结果箱线图可视化经典例程源码。 包含 实例1:创建一个表示车辆每加仑英里数(MPG)数据的箱线图 实例2:为多个分组数据创建箱线图 实例3:随机生成数据并创建带缺口的箱线图 ...
箱线图绘制,利用dataframe简易绘制出箱线图
箱线图EXCEL制作
GEO基因表达数据箱线图可视化
用matlab绘制箱线图,程序中给出了实例,可塑性好,可以把自己的数据直接代入
Excel做箱线图[参考].pdf
数据表+源码+报告 大三数据挖掘实验
利用svm对3类酒分类、识别,生成箱线图,分类图
箱线图的绘制
拿到正常样本和患癌样本的微生物丰度数据之后,如何用R语言绘制箱线图做差异分析?...箱线图横轴如何按照中位数排序?本程序根据10种具有显著差异的微生物风度数据绘制了两类样本的箱线图及小提琴图
多组箱线图的Rdata文件
画图:R语言画折线图和箱线图,包括案例和对应的R语言代码,代码中地址需要自行修改后使用
1.箱线图介绍 第一步:计算上四分位数,中位数,下四分位数(计算公式略)。 第二步:计算上四分位数和下四分位数之间的差值,四分位数差。 第三步:绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在...
科研论文之箱线图
提供一个箱线图的matlab
箱线图分位数计算源代码效率和精度高于自带程序-fenWeiShu.zip 调用格式为:result = fenWeiShu,输入参数必须为两个,不能为空。 帮助信息:locT中的元素的取值范围不小于0, locT元素的大小一定要保持一致,如...
一种区域相关性分析方法,可以部分区域随时间变化在整个区域中的重要性
qt彩色箱线图案例代码
boxplotx(data) 无需统计包即可提供箱线图。 数据可以是向量、矩阵或向量元胞数组。 NaN 可以在数据中,向量可以具有不同的长度。 选项允许设置箱线图的位置、宽度和颜色。 坚持下去,然后可以添加额外的箱线图。 ...