预防医学第二单元医学统计学方法讲义二
第四节 分类变量资料的统计描述
(一)考什么?
1.相对数常用指标及其意义
2.应用相对数时应的注意事项
(二)最重点是什么?
1.相对数常用指标及其意义
(三)最难点的是什么?
率和构成比的区别
一、相对数常用指标及其意义
相对数是两个有关联的数值之比。常用的指标有率(rate)、构成比(constituent ratio)和相对比(relative ratio)。
1.率
某现象在某时期实际发生数与可能发生某现象的总数之比,用以说明某现象发生的频率或强度,又称频率指标,常以百分率、千分率、万分率或十万分率表示。计算公式为:
如:发病率、患病率、感染率、有效率、治愈率……
2.构成比
事物内部某一部分的观察单位数与事物内部各部分的观察单位数总和之比,以百分数表示。说明事物内部各部分所占的比重或分布。
计算公式为:
构成比有两个特点:
●各部分构成比的合计等于100%或l;
●事物内部某一部分的构成比发生变化,其他部分的构成比也相应地发生变化。
3.相对比
两个联系指标之比,常以百分数或倍数表示。计算公式为;
●说明A为B的若干倍或百分之几
●A、B两个指标可以是绝对数,也可以是相对数
●可以性质相同,也可以性质不同
●可以是定性资料,也可以是定量资料
如:性别比、CV等都是相对比的指标
B1题型
A.表示某病发生严重程度
B.反映两个指标的相对关系
C.反映某病在各疾病中所占的位次
D.反映同种病不同时间动态变化情况
E.反映同种病不同地区的严重情况
(1)发病率:
『正确答案』A
(2)构成比:
『正确答案』C
(3)相对比:
『正确答案』B
二、相对数应用注意事项
1.计算相对数时,观察单位数应足够多
2.分析时构成比和率不能混淆
分析时常见的错误是以构成比代替率来说明问题。构成比说明事物内部各部分所占的比重或分布,不能说明某现象发生的强度或频率大小。频率指标才能说明事物发生的严重程度。
3.观察单位数不等的几个率的平均率,不能将这几个率直接相加求其均值
应将各个率的分子、分母分别相加后,再求总率即平均率。
4.相对数的相互比较应注意可比性
(1)所比较资料的内部构成要相同
(2)若内部构成不同,则不能直接进行总率比较,只能分性别、分年龄别进行率的比较,或进行率的标准化后再作对比
5.样本率或构成比的比较应做假设检验
样本率或构成比是由抽样得到的,存在抽样误差,进行比较时须进行假设检验。
第五节 分类变量资料的统计推断
(一)考什么?
1.率的抽样误差
2.总体率的估计
3.率的u检验和x2检验
(二)最重点是什么?
率的抽样误差
率的u检验和x2检验
(三)最难点的是什么?
率的u检验和x2检验
一、率的抽样误差、总体率的可信区间及其估计方法
1.率的抽样误差与标准误
从同一总体中随机抽取n个观察单位的一组样本,计算得到的各个样本率,不一定都与总体率π完全相同,这种由于抽样而引起的样本率与总体率之间的差别,称为率的抽样误差。率的抽样误差用率的标准误表示,计算公式如下:
当总体率π未知时,则用样本率p作为π 的估计值,率的标准误的估计值表示为:
率的标准误越小,说明率的抽样误差越小,用样本推论总体时,可信程度越高。
2.总体率的可信区间及其估计方法
(1)正态近似法:当样本含量n足够大,样本率p或(1-p)均不太小时[如np和n(1一p)均大于5],样本率的分布近似正态分布,总体率可信区间的估计由下列公式估计:
总体率(π)95%的可信区间:p±1.96Sp 公式28
总体率(π)99%的可信区间:p±2.58Sp 公式29
二、U检验和x2检验
1.率的μ检验
样本量n足够大,样本率p或(1- p )均不太小(如 n p和n (1- p )均大于5时),样本率的分布近似服从正态分布,样本率与总体率之间,两个样本率之间的差异可用率的u检验。
(1)样本率与总体率的比较。
√
公式中P样本率,π为总体率,σp为根据总体率计算的标准误。
(2)两个样本率的比较
2. X2检验
X2检验(卡方检验)是用途:
–可用于两个及多个样本率或构成比的比较
–两分类变量间相关关系分析
X2检验的基本思想:假设比较样本所对应的总体率相等,即两样本率来自总体率相同的总体。
若检验假设H0成立,根据X2统计量值的大小,结合自由度ν,可确定概率 p,并对总体做出推断
例:某医生用两种疗法治疗前列腺癌,出院后随访3年。甲疗法治疗86例,存活52例,乙疗法治疗95例,存活45例。问两种疗法治疗前列腺癌患者的3年生存率是否相同?
表9-7 甲乙两种疗法治疗前列腺癌的3年生存率比较
处理 |
生存 |
死亡 |
合计 |
生存率(%) |
甲疗法 |
52(46.09) |
34(39.91) |
86 |
60.47 |
合计 |
97 |
84 |
181 |
53.59 |
四个格子的数据是基本数据,发生与不发生的绝对数,也称为实际数,其余的数据都是从这四个数据计算得来的,因此,该资料称四格表(fourfold table)资料。
●四格表资料X2检验的基本步骤
(1)建立检验假设:
H0:π1=π2 (两种疗法治疗前列腺癌患者的3年生存率相同)
H1:π1≠π2(两种疗法治疗前列腺癌患者的3年生存率不同)
α=0.05
(2)计算统计量X2:
1)基本公式:
式中A为实际频数,四格表中的基本数据;T为理论数,是根据无效假设推算出来的。
理论频数的计算公式为:
公式34
公式中TRC为第R行第C列格子的理论数,nR为第R行的合计数,nC为第C列的合计数,n为总例数。
2)四格表资料专用公式:四格表资料进行X2检验还可以选用专用公式,省去计算理论数的过程,使计算简化。
公式35
式中a、b,c、d分别为四格表中的四个实际频数,n为总例数。
上述公式的适用条件:n≥40 且T≥5
☆但当n≥40 且1≤ T <5,用校正公式
校正X2值的公式为:
☆n<40或T<1,不宜采用x2检验Fisher精确概率法
(3)确定P值和判断结果:
ν=(行数一1)(列数一1)=(2-1)(2-1)=1,
根据自由度查X2界值表,X20.05(1)=3.84,本例X2=3.11<3.84,P>0.05,按α=0.05的水准不能拒绝无效假设H0,故不能认为甲乙两种疗法治疗前列腺癌的3年生存率有所不同。
●行×列表资料的X2检验:
用于多个样本率的比较、两个或多个构成比的比较。其基本数据有以下三种情况:① 多个样本率比较时,有R行2列,称为R×2表;② 两组样本的构成比比较时,有2行C列,称2×C表;③ 多个样本的构成比比较,有R行C列,称R×C表。
专用公式:
公式40
公式中n为总例数,A为每个格子里的实际频数,nR和nc分别为与A值相应的行和列合计的例数。
建立检验假设:
H0:π1 = π2 = π3 = --- = πk (k个总体率相等)
H1: k个总体率不等或不全相等
2)行×列表资料X2检验的注意事项
A.如假设检验的结果是拒绝无效假设,只能认为各总体率或构成比之间总的来说有差别,但并不是说它们彼此之间都有差别,如果想进一步了解彼此之间的差别,需将行×列表分割,再进行X2检验(详见统计学专著)。
B.对行×列表资料进行X2检验,要求不能有l/5以上的格子理论数小于5,或者不能有一个格子的理论数小于1,否则易导致分析偏性。出现这些情况时可采取以下措施:①在可能的情况下再增加样本含量;②从专业上如果允许,可将太小的理论数所在的行或列的实际数与性质相近的邻行或邻列中的实际数合并;③删去理论数太小的行和列。
习题:
1.经过统计得到X2>X20.05(υ)结果。正确的结论是
A.P=0.05,拒绝H0,差异有统计学意义
B.P>0.05,接受H0的可能性较大
C.P=0.05,接受H0 ,差异无统计学意义
D.P<0.05,拒绝H0 ,差异有统计学意义
E.P>0.05,接受H0 ,差异无统计学意义
『正确答案』D
2.某医院用国产呋喃硝胺治疗十二指肠球部溃疡,用甲氰咪胍为对照,观察6周有如下结论:呋喃硝胺治疗62人,治愈44人,甲氰眯胍治疗78人,治愈38人。用什么样方法得出两种药物疗效相同或不同的结论
A.计算两药物的治愈率直接比较
B.进行率的标准化处理
C.用四格表的χ2检验
D用四格表的校正χ2检验
E.用配对资料的检验
『正确答案』C
第六节 直线相关和回归
(一)考什么?
1.直线相关分析的用途,相关系数及其意义
2.直线回归分析的作用,回归系数及其意义
(二)最重点是什么?
·相关系数及其意义
·回归系数及其意义
一、直线相关分析的用途,相关系数及其意义
1.直线相关分析的用途
直线相关又称简单相关,用于研究两个连续性随机变量χ和y之间的线性关系。如研究血压和血糖之间的线性关系,回答两者之间是否存在线性关系、关系是否密切以及是正相关还是负相关。描述二者之间的线性关系统计指标——相关系数r。
2.相关系数及其意义
相关系数又称积差相关系数,用符号r表示。其计算公式为:
公式41
r是反映两个变量线性关系的方向和密切程度的指标,r没有单位,其值为-1≤r≤1。
相关方向用r的正负号表示
r值为正,说明变量z和Y之间为正相关关系,即变量χ和y的变化趋势是同向的;
r值为负,说明变量χ和Y为负相关关系,表明χ和y之间呈反方向变化;
r的绝对值等于l,为完全相关;
r等于0,χ和y之间无线性关系。
密切程度用r的大小表示
r的绝对值越接近于l,线性关系越密切;
越接近于0,线性关系越不密切,
二、直线回归分析的作用,回归系数及其意义
1.直线回归分析的作用
直线回归又称简单回归,用于研究两个连续性变量χ和y之间的线性数量依存关系。χ为自变量,y为依赖于χ的变量,称作因变量,也称反应变量,两个变量之间有数量关系,直线回归分析的主要任务是:找出最适合的直线回归方程,以确定一条最接近于各实测点的直线,描述两个变量之间的线性回归关系。
考察两个随机变量之间有无线性关系,直观的方法是在普通方格纸上绘制散点图。
2.直线回归方程、回归系数及其计算直线回归方程的一般表达式为:
=a+bk
是给定X时Y的估计值。
a为回归直线在Y轴上的截距, a>0表示直线与纵轴的交点在原点的上方;a<0,则交点在原点的下方;a=0,则回归线通过原点。
b为样本回归系数,即回归直线的斜率。表示当X变动一个单位时,Y平均变化多少个单位。
b>0,表示Y随X增大而增大;
b<0,表示Y随X增大而减少;
b=0,表示直线与X轴平行,即X与Y无直线关系。
截距a和斜率b的估计通常采用最小二乘原则,即保证各实测点至回归直线的纵向距离平方和为最小。根据最小二乘原则导出b和口的计算公式为:
直线相关和回归的联系
·相关系数与回归系数的正负号相同
·相关系数与回归系数的假设检验是等价的
·可以用回归解释相关
习题:
1.分析胎儿不同出生体重和围产儿死亡率之间是否有关,可以选用的统计方法是
A.t检验
B.F检验
C.X2检验
D.相关分析
E.秩和检验
『正确答案』D
2.两个正态双变量资料,自变量记为X,因变量记为Y,进行回归分析,回归系数为0.2,经统计学检验,P=0.05,则
A.X增大一个单位,Y增大0.2个单位
B.X增大一个单位,Y减少0.05个单位
C.X增大一个单位,Y增大0.05个单位
D.X增大一个单位,Y减少0.2个单位
E.X增大一个单位,Y减少或增大0.2个单位都有可能
『正确答案』A
3.同一批资料对回归系数b和相关系数r作假设检验,其结论:
A.是相同的
B.是不同的
C.不一定相同
D.肯定不同
E. r为负b为正
『正确答案』A
4.在两变量X、Y直线相关分析中。相关系数的正负取决于
A.X的取值
B.Y的取值
C.Lxx
D.Lyy
E.Lxy
『正确答案』E
第七节 统计表和统计图
(一)考什么?
1.统计表的基本结构和要求
2.统计图形的选择和制图通则
(二)最重点是什么?
2.统计图形的选择
一、统计表的基本结构和要求
1.标题
简明扼要地说明表的中心内容,必要时注明研究事物现象发生的时间、地点等。标题一般写在表的正上方。
2.标目
有横标目和纵标目。横标目又称主辞,是研究事物的对象,通常置于表的左侧,一般按其发生频率的大小顺序来排列,使其重点突出和对比鲜明,或按事物的自然顺序排列。
纵标目是研究事物的指标,又称宾辞,列在表的右上方,其表达结果与主辞呼应。当主辞的标志不止一个时,可将部分主辞与宾辞复合。
3.线条:
包括顶线,底线和隔开纵标目与数字的横线,共三条线。必要时用细横线将合计隔开
4.数字:阿拉伯数字表示,位数对齐,小数位数一致。表内不留空格,无数字用“-”表示,缺失数字用“…”表示,若数字是“0”,则填写“0”。
5.备注 表中数据区一般不插入文字或其他说明,需要说明时可用“*”号标出,将说明文字写在表格的下面。
二、统计图形的选择及制图通则
统计图(statistical diagram)是用点、线、面或立体图形将事物的数量大小、分布情况、发展变化趋势等特征表达出来,使读者便于比较、理解和记忆,留下明晰和深刻的印象。医学上常见的统计图有线图、直方图、直条图、圆形图、散点图、统计地图等。
1.图形选择
首要的问题是根据资料的性质和分析的目的选择合适的图形。可根据以下原则选择图形:
①资料是连续性的,目的是用线段升降表达事物的动态变化趋势,选择普通线图;
②资料是连续性的,但分析的目的是用线段升降表达事物动态变化的速度,选择半对数线图
③数值变量的频数表资料,其分析目的是用直方的面积表达各组段的频数或频率分布情况,宜选择直方图;
④资料是相互独立的,目的是用直条的长短比较数值的大小,选用直条图;
⑤事物内部各部分的百分构成比资料,目的是用面积大小表达各部分所占的比重大小。则应选择圆形图或百分直条图;
⑥双变量连续性资料,目的是用点的密集程度和趋势表达两个变量的相互关系,选用散点图;
⑦地区性资料,目的是用不同的颜色或纹线表示某事物在地域上的分布情况,选择统计地图。
2.制图通则
①标题:简练、确切地说明图的内容,必要时注明时间、地点。一般置于图的下方,左侧加图形的编号;
②有纵轴和横轴为坐标的图形,一般以第一象限为准作图,两轴的交点为起点,纵横两轴应有刻度、数量单位和标目,纵横两轴的比例以5:7为宜。纵轴尺度自下而上,数值一律从小到大,直条图和直方图纵坐标从0开始,标明0点;
③在同一图内比较几个不同的事物时,须用不同的图案或颜色表示,并附图例说明。图例放在图内或图形的下方,位置要与图体协调。
1.比较1995年某地三种传染病白喉、乙脑、痢疾的病死率,选择的统计图是
A.线图
B.半对数线图
C.直方图
D.条图
E.圆图
『正确答案』D
2.比较1949~1957年间某市儿童结核病和白喉的死亡率(1/10万)的发展速度(两种疾病死亡率相差很大),宜采用
A.条图
B.直方图
C.线图
D.半对数线图
E.散点图
『正确答案』D
3.要反映某一城市连续五年甲肝发病率的变化情况,应选用
A.条图
B.直方图
C.线图
D.散点图
E.圆图
『正确答案』C
4.某医院收集了近期门诊患者的病种构成情况资料,宜绘制
A.圆图
B.散点图
C.条图
D.线图
E.直方图
『正确答案』A
24年医师必过课程识别二维码报名
或加微信15682385872报名
- 02-23预防医学第二单元医学统计学方法讲义一
预防医学第二单元医学统计学方法讲义一,欢迎学习!