医学研究论文写作之计量资料的分析

1.正态分布当计量资料是连续型分布的资料,某一指标的测量值个数无限增加时,其在直角坐标系中的频数分布呈正态曲线型,称为正态分布。
正态曲线是一条中间商、两侧完全对称的并逐渐下降的钟型曲线。由于许多指标的频数分布都服从或近似服从正态分布,所以它成为最常用的分布,许多生物现象都可以用正态分布来描述或近似描述。正态曲线有两个基本的参数,均数忡,标准差σ。正态曲线下面积有如下规律,正态曲线下, X 轴上μ 左右两侧各1σ 间的面积为68.27% ,各1.96σ 间的面积为95.∞%,各2.58σ 间的面积为99.∞%。
根据数理统计学,对于连续型分布的计量资料来说,当样本例数较大时(例如大于50 ,有些资料只需大于30) ,无论其总体属何种类型的分布,其随机抽样时的样本分布(例如样本均数的分布)都服从正态分布。这一理论成为许多假设检验方法的基础。统计学中的许多重要分布,譬如s 分布、F 分布、χ2 分布等都是在正态分布的基础上推导出来的。
2. 描述性分析一一平均数与标准差描述正态分布特征的指标是平均数与标准差。描述一个计量资料样本特征的指标也是平均数与标准差。
平均数用来描述一组数据的集中趋势,通常用算术平均数。标准差用来描述一组数据的离散程度。因此,对于正态分布或近似正态分布的资料来说,全面反映其特征的是平均数与标准差共用,通常表示方式是王挡。
对于偏态分布的资料则不是这样。
中位数M , 用来描述一组偏态分布资料的集中趋势,这是一组数据按大小顺序排序后,位于中间位置那个数的数值。
几何均数G , 用于描述一组数据的变化呈倍数关系的资料的集中水平(平均水平) ,它是该组n 个数据乘积的n 次方根。
描述一组数据的离散程度的指标常用的还有如下几种:
极差( 全距R) 。这是一组数据最大值与最小值之差。它存在不稳定的缺点,因为只受二个极端值的影响。
四分位数间距。一组数据共有3 个四分位数,可将全部变量值按大小等分为4 份。所谓四分位数间距定义为第1 第3 两个四分位数之差,此间距包括该组数据中间一半的变量值,宫的稳定性比极差好。
变异系数CV o CV=(v/s)x 100% ,用以反映一组数据的相对变异程度,元量纲,便于不同性质资料的相互比较。例如一组20 岁男子,身高的变异系数为3% ,体重的变异系数为10% ,可以明确地说,该地20 岁男子体重的变异皮大于身高的变异度,身高的变化幅度(参差不齐的程度)要低于体重。
3. 参考值范围过去称正常值范围。根据正态分布的特性, 可以用来制定参考值范围。一项严密设计、合理抽样、仔细测量所获得的一组例数较大(譬如大于l∞例)的样本,可以用来制定参考值范围。
对于正态分布或近似正态分布的资料,可以根据正态曲线的特性, 以王土1.96s 来制定95%参考值范围。如是单侧参考值范围,则以大于(元-1.645s)或小于(v+) . 645s)来制定95%参考值范围。
对于偏态分布的资料,一般用百分位数法来制定。百分位数PX 是将一组变量值从小到大排序后, 再将它分为100 等分,对应于第x%位的数值即称为第x 百分位数(例如第5百分位数)。对于双侧95%参考值范围来说,第2.5 百分位数~第97.5 百分位数即其参考值范围;对于单侧来说,大于第5 百分位数(或小于第95 百分位数)为其参考值范围。百分位数的计算是先计算其位置所在,然后往往需要按其左右两个数值进行插补计算而得。
对于变量值呈倍数分布特点的资料,往往将其通过取对数代换后,如其近似正态分布则按豆臼法计算,然后取反对数还原,制定出参考值范围。
4. 与总体均数比用t 检验, t=(-μ)Is” 。已知总体均数阳,通过样本计算x ,S 、S; ,t , 按自由度v=n-) 查t值表,根据P 值做结论。此法适用条件为总体分布近似正态分布,或者虽不满足此条件,但样本例数大于30 时,也可用t 检验。
总体均数已知的情况并不很多, 也有的是一种假设,或是建立一种检验假说。例如某地健康成年男子脉搏72 次/分、某种标准液的真值为20mg/L 、一般胃溃荡患者有20%会出现胃出血症状等等。
5. 配对样本的比较配对设计所获得的变量值是成对的,不能拆开。如同一个实验对象某种处理前后所获得的一对数据:或同一个实验对象两种处理后所获得的一对数据;或者将两个实验对象按一定条件先配成对子,再分别进行不同的处理而获得的一对数据。由这些n 对数据组成的样本称为配对样本。配对样本是先计算出每对数据的差值d ,组成一组新数据,代表样本的结果,通过这n 个数据计算均数、标准差,而行t 检验。
6. 两个样本均数的比较这是最常见的假设检验方法,两组例数不限,可以不等。其适用条件是,对于小样本来说(每个样本倒数少于30 时) .要求两组都服从正态分布,两组方差没有显著差别,即通常说的正态分布等方差。
等方差是指两组变异程度没有显著差别。是否等方差,应进行方差齐性的F 检验来判定。如两组服从正态分布但方差不齐(有显著差别) ,应进行t’ 检验,它只是将t 检验公式略作改动。
如果既非正态分布又方差不齐时,可改用其它适宜的统计方法,如铁和检验等非参数检验方法。
当两样本例数较大,如大于50 时,尤其是大于1∞时,无论资料是否属正态分布,也无论两组的方差是否相差悬殊,均可用t 检验法进行比较。
7. 多个样本均数的比较最常用的方法是方差分析,计算统计量F, 所以也简称F 检验。F 检验的条件与t 检验所要求的条件相同,即:各样本是相互独立的随机样本,各样本均来自正态总体,各样本总体方差相等。实际上t 检验与F 检验是一回事,两组t 检验即是两组比较时的F 检验,此时tl=F, 相应撞验界限值。
通常设计的是单因素的方差分析,实验因素只有一个,按此因素分为多个实验组,其中可含有对照组。F 检验的结果只能得出多个样本均数间是否有显著差异,如没有,检验就此结束;如有显著差异,并没有回答是否任何两个均数之间或哪两个均数之间有显著差异,必要时需在F 检验的基础上进一步作样本均数间的两两比较。如欲比较任何两组的差异,可用q 检验法:如实验设计中,其中一组为共同对照组,每一组均与对照组比较,其他各实验组不作相互比较时,应当用Dunnent q 检验。
应当指出的是,多个样本均数间的两两比较,只是在方差分析的基础上再进一步稍作计算而已。不能将多组数据拿来直接作两两比较的t 检验,这不是因为计算繁琐,而是因为整个实验设计是一个整体,不应抛开整体单拿出两组进行比较。实践中最常见的错误是不考虑多组比较的实验设计,也不作多组的F 检验,而直接拿出两组作t 检验或许多次t 检验,这是错误的。
还有一种可以作多个样本均数比较和两两比较的设计,是配伍组设计。所谓配伍组设计是配对设计的扩展,不是配成对子,只得到2 个数据,而是配成组,要得到3 个或3 个以上的一组数据认对配伍组设计要用双因素方差分析。这种设计是将欲研究的某种因素作为实验因素,而将已知的另一种可能有影响的因素通过配伍进行控制,使之均衡,以排除这种因素的干扰,提高实验的效率。双因素配伍组的设计因为按两个因素排成二维交叉表的格式,所以要求各组的观察次数相等(例数相等)。配伍组设计仍然用方差分析,用同样方法做两两比较。实际上配伍组设计是配对设计的扩展,或者说配对设计是配伍组设计的最简形式,两者本质上是一回事。
8. 假设检验时应注意的问题样本应有代表性,必须是随机样本,相比较的各组之间应有可比性。
选用的假设检验方法应符合其应用条件。虽然当样本例数较大时,满足条件并不成为问题,但当没有把握时,还是应先进行应用条件的检验。
统计学有意义的差异不等于实际上有意义,因此,当样本均数的差异无实际意义时,可不进行假设检验。
要正确理解P 值的含义是”总体无差别”的假设成立的可能性。如P〈0.05 , 指”总体无差别”的假设成立的可能性为小于5% ,我们认为既然可能性这么小,故拒绝它,而认为总体有差别。P 值越小,做出”总体有差别”的结论犯错误的可能性越小,把握度越大。P 值并不表示总体差别的大小,两样本均数差异很大, P 值并不一定小;两样本均数差异很小, P值并不一定大。
统计分析方法所得的结论只是统计结论,是就数据论数据的,做结论时还应结合专业,做出专业结论才是完整的。
关于样本例数,在实验设计时就应考虑到。一是根据有关信息估计需要多少例数,二是要平均分列各组。各组例数越接近,检出效能越高,误差越小,越节省例数;反之,各组例数相差越大,检出效能越低,误差越大,越浪费例数。那种实验组例数很大,对照组(或其中一组)例数很少的设计是不可取的。在实验对象很难收集的情况下,应在例数少的那堪下功夫多收集几例,而不要在较容易收集的那组增加很多,那样将会是事倍功半,甚至连事倍功半都不如。例如在应用原位杂交法探讨肠道病毒感染与扩张型心肌病关系的研究一文中阔, “40 例心肌活检标本中有18 例出现杂交信号, 5 例正常心肌对照标本与该探针杂交均为阴性……证明扩张型心肌病的发生与肠道病毒感染特别是柯萨奇病毒感染有密切关系”。看起来45%与0%的差异很大,但是据此并不能得出上述结论。一是文中未进行统计学检验,如经检验,校正对= 2.11 , P〉0.10(确切概率法P=0.141) , 两组的阳性率差异并未达到统计学检验的显著性水平;二是两组例数差别过大,对照组只有5 例,致抽样误差增大,未能得出有价值的结论。假如将实验组与对照组例数之比由40:5 改为20 例: 10例,仍然得到了原样本的阳悖率,此时检验结果为校正对= 4.46 , P〈0.05 ( 确切概率法P=0.030) ,差异则有统计学意义。
关于α 值。统计上称α 值为假设检验时的显著性水平,即推翻”无差别”检验假设、作出”有差别”结论时容许冒的风险。通常情况下设α=0.05 或α=0.01 ,此是实验设计时所规定的,不能实验结束后现规定。因此写结论时,通常写P〉0.05 、P〈0.05 或P〈0.01, 如没有必要,不必特意写P〈0.05等等。

2015-12-14T11:35:44+00:00