洪永泰教授讲座课件.doc
抽样讲义 洪永泰 台湾大学政治学系 壹、导论 抽样的意思顾名思义,就是从全体之中抽取一部分个体做为样本,借着 对样本的观察,再对全体做出推论。譬如说,我们想知道某个地区七岁到十 二岁的小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或 是我们的商品检验单位想要知道有一批货柜的棒球是不是每一个都符合使用 标准;或是水库管理当局想要知道到底水库里有多少鱼。在理论上,我们当 然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上 我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。 一、为什么要抽样? (一)因为要节省经费,(二)因为要节省时间。这两个理由很容易了解, 如果要访问全体,则所耗费的时间和经费是相当可观的,而且有许多调查性 质具有时间性,如果拖得太长就会失去时效。例如想知道学生们对某一项考 试的反应如何,就非得打铁趁热,在短时间内完成调查不可。(三)因为要提 高资料的准确性,这是由于全体调查牵涉到相当大量而又繁杂的作业,动员 不少人力、物力和行政管道,增加许多犯错的机会,导致取得的数据质量不 佳,而抽样调查工作涉及的作业负担相对地轻松许多,参与人员因为较少, 好控制,使得数据的品质也较好。事实上联合国的专家们也发现,在一些教 育较不发达的地区,人口普查的资料就不如抽样调查来得好。(四)因为要取 得较详尽的数据,譬如我们想要知道七岁到十二岁小孩的压岁钱流到那里去, 如果进行全体调查的话,由于人力和物力的限制,我们只能针对每一个小孩 1 取得一点点资料,但是如果是抽样调查,则因为调查对象不多,反而可以很 从容的取得细节资料提供分析之用。每十年一次的人口普查,除了全体都查 之外,总是还要再抽取少数样本做更详尽的访问就是这个道理。(五)因为要 减轻损失,例如汽车车身的耐撞试验,罐头食品的安全检查,或是电灯泡寿 命的质量管理检验。这些调查本身就具有破坏性,总不能每部汽车都撞一撞, 或是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目 还要控制到越少越好。 二、机率抽样与非机率抽样 在谈抽样设计之前,让我们先厘清一下这里所谈的抽样是指机率抽样, 也就是说:「在完整定义的母体之中,每一个个体都有一个不为零的中选机 会」。凡不属于这个定义范围的都是非机率抽样。常见的非机率抽样方法, 综合Kish(1965)和Cochran(1977)的说法,有下列几种: (一)偶遇样本(haphazard sample)或便利抽样(convenient sample),是碰到谁就选谁的抽样,做研究的人并不在乎调查对象是否有代 表性,例如生物学家解剖青蛙,心理学家观察人们对声光刺激的反应,医生 征求自愿者做药物反应的实验等等。 (二)立意选样(purposive sampling)或判断选样(judgment sampling),这是经由专家主观判断,立意选定他们认为「有代表性」的样 本来观察。例如人类学家或社会学家会选定一个或几个村庄来代表乡村地区, 交通专家选定几个路口来计算交通流量,教育专家选定几个学校班级的学生 来代表所有的学生等等。 (三)自愿样本(volunteer subjects),听任自动送上门来的人 组成样本群。 (四)配额选样(quota sampling),依照母体的人口特征按比例 2 分配样本数,在配额之内进行非机率抽样,也就是把调查对象依照特征分类 后,根据各类别的百分比每类立意选样至额满为止。例如某个地区七岁到十 二岁的小孩之中,约有一半是男的,另一半是女的,有四分之一住在都市, 四分之三住在乡村。如果样本数是一千,则根据上述各类别的比例先算出各 种特征交叉汇编后每一组合的配额,在配额内立意选出符合该类别的人即可。 这样做可以节省时间和资源,而又维持了样本的「代表性」。 (五)雪球抽样(snowballed sample),先找到原始受访者,然 后再从受访者所提供的信息找到其它受访者。 以上这些非机率抽样方法由于没有机率做推论基础,大多只能做描 述性的用途,而不能对全体做科学的估计或验证理论的假设检定,因为它们 提不出确切的误差数据,无法计算样本数据的准确程度。 贰、抽样的基本原理 假设某个地区七岁到十二岁的小孩共有两百四十万人,如果我们要抽取 一千个人来调查有关他们的压岁钱收入和支出情形,怎么抽才会「准」呢? 用常识来判断,总要有一些都市人,一些乡下人,要男生,也要女生,要富 豪子弟,也要清寒子弟等等。这些顾虑都是担心万一抽得不好,变成瞎子摸 象,整个推论就失效了。 在谈抽样原理之前,首先让我们先熟悉几个名词和符号。 一、资料的中心点和离散程度:平均数和标准差 大家都知道平均数是什么,它是所有个案观察值的总和除以累加的个案 数,也就是我们通常说的一组资料的中心点。我们把全体的平均数写成μ(念 成mu)。它的定义是: 人 = (x1 + x2 + …+ xN) / N ……………………………………(2.1) 3 式中N是全体的总个案数,xi 是第 i 个个案的观察值。 其次一个名词是标准差σ(念成sigma),是衡量一组资料中各个点和 中心点之间的「标准距离」。也就是衡量一组数据中各点的集中或离散程度。 它的定义是: 人 人 人 [(x1 人 人 ) 2 人 (x2 人 人 ) 2 人 ...人 (xN 人 人 ) 2 ] / N ………………………(2.2) 从定义上来看,它是每一个点和中心点μ的差,平方后累加起来取平均数, 再开根号还原。平方的原因是要避免各点和中心点的差正负相抵。 二、正态分布和中央极限定理 假设这个地区两百多万个七岁到十二岁小孩的压岁钱平均数是μ,标准 差是σ。现在我们要抽取一千个样本,从样本观察值来估计μ,一个很自然 的选择是用样本的平数来估计,让我们把样本的平均数写成 X (念成XBar, Bar是横杠的意思),它的定义是: x 人 ( x1 人 x2 人...人 xn ) / n ………………………………………… (2.3) 式中n是样本数。 如果我们使用一套机率抽样的作业程序抽出一千人,取得他们的观察值 后会得到一个平均数,把它写成 x1 ,表示是第一次抽样得到的结果。现在把 整个作业重做一遍,我们可能得到不同的一千个人,因为在机率抽样之下每 个人都有中选的机会,重新做一遍就可能抽到不同的人。我们把第二次抽样 的结果写成 x2 。当然这个 x2 不一定会和 x1 相同,就像两颗子弹不会射中相 同的一点一样。如此一直做下去,如果我们做K次的话,会有 x1, x2 ,..., xK 一 共有K个样本平均数。在数学上有个中央极限定理,它的内容是:在样本数 足够大的情况下,如果把这K个 X 排起来,它们会形成正态分布,而这些样 本平均数的平均数会等于μ,这些样本平均数的标准差会等于 人 / n 。 4 什么是正态分布呢?它是一种钟形,以平均数为中心、左右对称的图形 分布。譬如说,全校同学的身高由低而高排列起来,会有少数人很矮或很高, 大部分人集中在中间,而越靠近平均身高的人会越多,形成像钟形的样子。 事实上,我们可以利用正态分布的特性计算出身高在某一高度之间者到底有 多少人。这是因为根据正态分布,有68%的人会落在平均数左右一个标准差 距离之内,有95%的人会落在平均数左右两个标准差之内,而有99.7%的人 会落在平均数左右三个标准差范围之内的缘故。 三、点估计、区间估计、和信赖系数 根据中央极限定理,我们知道如果做很多次抽样的话会得到很多个 X , 而这些 X 排起来会形成正态分布,它们的平均数是μ,标准差是 人╱ n 。换 句话说,有68%的 X 会落在 人 人 人 / n 之间,有95%的 X 会落在 人 人 2人 / n 之间,有99.7%的 X 会落在 人 人 3人 n 之间。 把上述的说法稍为转换一下就变成:有68%的 X 人 人 / n 会包含着μ, 有95%的 X 人 2人 / n 会包含着μ,有99.7%的 X 人 3人 / n 会包含着μ,而 这就是抽样和估计最根本的道理。我们从全体之中以机率抽样方式抽取n个 样本,取得样本观察值,计算它们的平均数 X ,然后加减两倍的 人╱ n 得到 一组上下区间,然后说:我们有95%的信心,这个上下区间一定会包含着全 体的平均数μ。如果我们仍不放心的话,可以用 X 加减三倍的 人╱ n ,那么 这组区间包含着μ的信赖度就有99.7%。 用样本平均数 X 来估计全体的平均数μ称为点估计。点估计命中目标的 机会是很低的,因为只凭着少数样本观察值得到的结果要和全体的平均数吻 合几乎是不可能的事,所以我们最好不要用点估计,而要用区间估计。根据 中央极限定理和正态分布的特性我们知道 X 人 人 / n 这个区间包含着全体平 5 均数μ的机会有68%, X 人 2人 / n 的机会有95%,而 X 人 3人 / n 的机会有 99.7%!真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估 计准确的程度,而这68%,95%,99.7%就称做是信赖系数。说得更确切一 点,以95%信赖系数为例,它的意思是:如果我们进行一百次独立的抽样估 计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计 里会有95个正确地包含着全体平均数μ。实际上我们不会做一百次抽样,而 是只做一次,所以说这一次抽样而来的区间估计会包含着μ的机会是95%, 信赖系数越高,估计的区间也就越宽,这是高信赖系数所必须付出的代价。 譬如我们估计全国七岁到十二岁小孩的压岁钱平均数是在10元到1000元之 间。这个估计即使有99.7%的信赖度也没有什么用,因为这段区间实在太宽 了,如果是100元到120元之间,而且信赖系数是99.7%,这就是个非常好的 估计。我们学习抽样方法就是要使这个信赖区间尽可能的缩小。 刚刚提到过一个好的估计必须既准又稳,我们用 X 来估计μ,如果做很 多次的话,会有很多个 X 。中央极限定理已经给我们保证,这些 X 的平均数 会等于μ,所以是「准」的估计已无问题,但是这些 X 是否都靠近在一起, 称得上是「稳」呢?这就要看这些 X 的标准差了。我们已经知道 X 的标准差 是 人╱ n ,其中σ是全体的标准差,n是样本数,把样本数加大会使得标准 差变小,所以我们马上领悟到样本数越大,估计也就越稳。其次,σ是全体 数据的标准差,我们并不知道它到底是多少,在区间估计里我们也需要用到 它,因此为了要知道估计的准确程度,连全体资料的σ也要一起估计才行。 至少有两种方法来估计σ,一是用样本观察值的标准差,它的定义是: 人 人 [( x1 人 x)2 人 ( x2 人 x)2 人...人( xn 人 x)2 ]╱ (n 人 1) ………………… (2.4) 在数学上可以证明用 S2 来估计 人 2 是合乎「准」的要求的,但是这个方法必 须做完抽样,取得样本数据后才能派上用场,有时很不方便事前的规划和设 计。二是用速简方式,我们知道通常的数据若以平均数为中心,左右各三个 6 标准差的距离大概可以网罗绝大部分的数据。所以我们可以用常识判断,找 出这组资料可能的最大数和最小数的差,再除以六,即是我们对σ的速简估 计,因为从最小数到最大数之间大概有六个标准差的距离。举例来说:压岁 钱最少的大概是零,最大的大概有一万元,差距是一万,除以六得 1667 元, 这就是我们对σ的估计。先不论我们抽样得到的 X 是多少,在规画作业时我 们就可以知道,如果样本数是一千,那么95%信赖度的区间宽度是 人2人 / n ,估计是 人2 人 1667 / 1000 或是±105元,这个宽度通常也叫做抽 样误差。 四、 抽样误差和样本数的决定 习惯上我们都以95%的信赖系数做为一般抽样设计的常模,因此公式 2人 / n 就成为我们决定样本数和误差大小的依据。上述的例子说明了如果样 本数是一千,则抽样误差是±105元。若希望把误差控制在±50元之内,那 么至少需要多少样本呢?我们可以代入公式,计算 50 人 2 人 1667 / n 得到n 应该是4446人。 另外一个比较快速的估计方式是使用百分比。假设我们想调查的是全体 国民之中有多少百分比的人吸烟,则以前的平均数现在变成百分比,亦即从 0到1之间的一个数字。样本百分比的标准差则跟着这个百分比变化,但是 绝对不会超过 05 . / n ,为了保险起见,我们就用 05 . / n 来代入,换句话说, 原来的公式 2人 / n 现在变成 2 人 05 . / n 人 1/ n ,这是估计的最大抽样误差。 例如样本数为400时,抽样误差为 人1/ 20 人 人005 . ;样本数为900时,抽样误 差是±0.033;同理,样本数一千六百时,抽样误差是正负二点五个百分点; 样本数二千五百时抽样误差是正负二个百分点。我们可以看到样本数在一千 到一千六百时最划得来;若再往上加,经费会增加很多,但抽样误差却减少 得很有限,并不经济,所以一千到一千六百是最常见到的样本数。 7 还有一件值得注意的事情是:样本数的大小和母体总数的大小并没有什 么关系。这似乎出乎一般人的意料之外。在理论上,如果样本数和母体数的 比例,也就是抽取率,在百分之五以下的话,样本数的决定几乎不受母体数 的影响。美国有三亿人,盖洛普民意调查经常把样本数定在一千二百左右, 英国有六千万人,要达到相同的准确度也需要相同的样本数,北京大学有三 万学生,同样的也需要一样多的样本数。 参、单纯随机抽样 在介绍抽样方法之前,让我们先认识一下随机数表(如附录表一)。这 个表是根据两个原则做出来的:(一)从0到9任何一个数字在任何位置出现 的机会都是一样的。(二)每一个数字出现在任何一个位置并不影响其它数字 出现在其它的位置。换句话说,每一个数字的出现都是独立的,从这两个特 性我们可以引申到:(三)从00, 01,02,......到98,99任何两位数出现 在一起的机会都是相等的。(四)从000,001,......到998,999任何 三位数出现在一起的机会都是相等的。(五)以此类推到更多位数。 我们将透过以下抽样方法的介绍来熟悉随机数表的使用。 一、单纯随机抽样的定义 单纯随机抽样(simple random sampling, srs)的定义是:任何样本 数为n的样本组合中选的机率都是相等的。这个方法有理论上的用途,但实 际上使用的并不多。 二、单纯随机抽样的执行 8 把全体所有成员从1到N编号,然后依随机数表抽取n个号码。例如从 四千人中抽五个人,把所有人自1到4000编号,然后用随机数表随便选 一行开始,假设我们选第三行,由于4000是四位数,所以我们一次要用 四个数字以使得从0001到4000之间的每一个号码都有相同的中选机 会。自上至下第三行起自左向右,所有的数字都依次算入,它们是4546,7 717,0977,5580,0095,3286,3294,8582,22 69,0056,5271,......等。把超过4000的号码舍去,我们有0 977,0095,3286,3294,2269五个号码中选,代表这 五个号码的人就是我们的样本。 三、对母体平均数的估计 n _ y = 人 yi/ n .......................................... (3.1) i 人1 _ 四、 y 的变异数估计(抽出不放回) _ ^ V ( y )= s2 / n ((N - n)/ N) .......... (3.2) 式中 s2 = n 人 i _ (yi - y )2 / (n - 1) 是样本变异数。 人1 五、对母体百分比的估计 ^ p= n yi/ n 人 i ............................ (3.3) 人1 式中 yi = 1 如果第 i 个个案具备该特征, yi = 0 如果第 i 个个案不具备该特征。 9 ^ 六、 p 的变异数估计(抽出不放回) ^ ^ ^ ^ V ( p )= ( p (1 - p )/ n - 1 ) ((N - n)/ N)……(3.4) 肆、等距抽样 一、等距抽样的定义 等距抽样(systematic sampling)也有人称它为系统抽样。它是先把 全体总数N除以样本数n,得到K,也就是每间隔K个抽一个的意思,再用 随机数表自1到K选一个随机数R,则R,R+K,R+2K,......,R+ (n-1)K等号码中选。例如四千人抽五人,K=4000/5=800, 每隔800个抽一个,自1到800选一个随机数。假设我们自随机数表第 五行开始,800是三位数,所以我们要用三位数,自上至下第五行,自左 向右,第一个是955太大舍去,第二个是929,也太大舍去,第三个是 400,所以编号400,1200,2000,2800,3600,这 五个人中选。 如果K不是整数,我们可以四舍五入取整数,也可以用「借一位小数」 的方法,也就是把所有的数字都向后挪一位数,包括 K 值、随机数值在内, 抽出之后再将此一小数去掉,如此则不会出现多抽或少抽一个样本的情形。 例如 N= 50,n= 6,K= 8.33, 借 1 位小数,取 K= 83,由 1 到 83 取一 个随机随机数 53,则得到 53、136、219、302、385、468 等五个样本, 将个位数无条件删去,则中选的样本是第 5,13,21,30,38,46 等五个。 10 二、母体清册(frame)的排列次序 等距抽样的效果和据以抽样的母体清册(frame)的排列次序有很大的 关系。理论上,等距抽样的样本平均数变异数是 _ V( y sy)= 〔1 + (n - 1 )〕 2/ n .......................... (4.1) 式中 是 「群内相关系数」(intracluster correlation) = E(yij - )(yij’ - )/ E(yij - )2 ............................. 理论上, k 人 (Y i 人 人 ) var(Y sy ) 人 var(Y sy ) 人 i 人1 k 1 k 1 n 人 [ n 人 (Yij 人 人 )] k i 人1 var(Y sy ) 人 var(Y sy ) 人 2 1 人 2 j 人1 1 k n 人 [ 人 (Yij 人 人 )] 2 k n2 i 人 1 j 人 1 1 k n n 人 [ 人 (Yij 人 人 ) 人 2人 (Yij 人 人 )(Yij 人 人 )] 2 kn2 i 人 1 j 人 1 j 人1 11 (4.2) var(Y sy) 人 1 k n 人人 [ kn2 i 人1 j 人1 k 人 E (Yij 人 人 )(Yij人人 人 ) E (Yij 人 人 ) 2 i 人1 j 人1 n k 人 人 (Yij 人 人 )(Yij人人 人 ) 人 i 人1 j 人 j 人 n 人人 n 人 人 (Yij 人 人 )(Yij 人 人 )] k 人 人人 k (Yij 人 人 ) 2 人 2 (Yij 人 人 )(Yij人人 人 ) 人 人 人 k人 人 n(n 人1) 2 1 人 2 n 人 人 (Yij 人 人 )(Yij人人 人 ) 人 2人 i 人1 j 人 j 人 kn(n 人1)人 2 kn(n 人1)人 2 i 人1 j 人 j 人 2 k n 当母体清册呈无次序状态完全随机方式排列时, = 0,样本平均数的变异 1 var(Y sy) 人 (Yij 人 人 ) 2 人 人kn(n 人 1)人 2 ] 人 人 kn 2 [ i 人1 j 人1 数完全等于单纯随机抽样下样本平均数的变异数,估计公式可以直接引用上 k n 人 人 (Yij 人 人 ) 3.1)至(3.4)。当母体清册呈有次序排列时, 是负 一节的所有公式( 人 2 i 人1 j 人1 人人 2 nk 值,样本平均数的变异数比单纯随机抽样下样本平均数的变异数还要小,引 人2 [1人 (n 人1)人 ] 用上述公式形成高估。 当母体清册呈周期性排列时, 是正值,样本平均数 n kn2 var(Y sy) 人 1 [kn人 2 人 人kn(n 人 1)人 2 ] 人 的变异数比单纯随机抽样下样本平均数的变异数还要大,引用上述公式形成 低估。 例如在有次序排列的情况下: N=9,n=3,K=3, N i =1,2,3,4,5,6,7,8,9 ; 人 =5, r=1 时,中选 1,4,7,平均数为 4,其群内组合为(1,4) (1,7) (4, 7); r=2 时,中选 2,5,8,平均数为 5,其群内组合为(2,5) (2,8) (5, 8); r=3 时,中选 3,6,9,平均数为 6,其群内组合为(3,6) (3,9) (6, 12 9)。 人人 人 E ( yij 人 人 )(yij 人 人 ) 人 人 人 ( yij 人 人 )(yij 人 人 ) k人 n(n 人 1) 人 人 ( yij 人 人 ) 2 2 人人 人 E ( yij 人 人 )2 人 kn 人人 (yij 人 人)(yij 人 人) 人[(1人5)(4人5) 人(1人5)(7人5) 人(4人5)(7人5) 人(2人5)(5人5) 人(2人5)(8人5) 人 (5人5)(8人5) 人 (3人5)(6人5) 人 (3人5)(9人5) 人 (6人5)(9人5)] 人 人21 人人 (yij 人 人)2 人(1人5)2 人(4人5)2 人(7人5)2 人(2人5)2 人(5人5)2 人(8人5)2 人(3人5)2 人(6人5)2 人 人人 人 21/{k人[ n人(n人 (91 人)5)2 人 60 60 2 ]} 人 人 21 人 21 人 人 人0.35 [(n人1)/ 2]人60 [(3人1)/ 2]人60 kn 人2 人2 人2 人 var( Ysy) 人 [1人 (n人1)人] 人 [1人 (3人1)人(人0.35)]人 人0.3 n n n 另一个例子是母体清册在周期性排列的情况下: N=9, n=3, K=3, N i =1,4,7,2,5,8,3,6,9; 人 =5, r=1 时,中选 1,2,3,平均数为 2,其群内组合为(1,2) (1,3) (2, 3); r=2 时,中选 4,5,6,平均数为 5,其群内组合为(4,5) (4,6) (5, 6); r=3 时,中选 7,8,9,平均数为 8,其群内组合为(7,8) (7,9) (8, 9); 13 人 人 (Yij 人 人)(Yij 人 人) 人 [(1人 5)(2人 5) 人 (1人 5)(3人 5) 人 (2人 5)(3人 5) 人 ...人 (8人 5)(9人 5)] 人 人 (Yij 人 人)(Yij 人 人) 人 51 人 人 (Yij 人 人) 人 (1人 5) 人 (2人 5) 人 (3人 5) 人 ...人 (9人 5) 人 60 2 人人 2 2 2 2 51 人 0.85 [(3 人 1) / 2] 人 60 人2 人2 var(Ysy ) 人 [1人 (n 人 1) 人 ] 人 人 2.7 n n 所以在母体清册有次序排列的情况下,等距抽样的中选样本不但可以自 动反映母体的代表性,也可以降低抽样误差。在几乎大部分的母体清册都计 算机化之后,排序容易,等距抽样势将成为主流趋势。从另一方面来看,母 体清册如果是在周期性排列的情况下,这种情况大多是时间序列或是经济方 面的数据,也有可能是有规则性的组合如军队、中小学生等, 人 为正值,抽 样误差可能非常大,解决的办法是抽取多个随机数,例如有一组周期性排列 的数据,N=1000,n=10,K=100,若利用等距抽样,原为 1 至 k 抽一个 随机数,现在改采 1 至 rk 抽 r 个随机数。若 r=2,则为 1-200 抽 2 个 r,假 设抽到随机数 036 和 147,则中选的样本是: 36,147,236,347,436, 547,636,747,836,847。 等距抽样的好处是快速方便,所以用得很多。有时候不知道N和n,只 知道K也可以用。譬如以百货公司顾客、汽车乘客或球场观众为对象,若决 定每三十人抽一人,则马上即可进行而不必事先知道全体有多少人,样本要 多少等等。它的缺点是最怕遇到具有周期性的数据,万一这一个周期和K成 比例,则样本死守一个规则,完全失去代表性。例如每七天查一次帐,结果 永远查到一星期内的同一天,后果必然不堪设想。 14 伍、分层随机抽样 分层随机抽样(stratified random sampling)是先把母群体的所有个 体依某些特征分类,也就是分层,然后在各层之内再进行独立的随机抽样。 譬如某个地区七岁到十二岁的小孩,我们可以先区分为都和乡村两大层,然 后各自以各层为新的全体进行抽样。这个方法的好处很多,不但可以减化工 作量,而且可以提高估计的精确度,只要分层时守着「同层之内同构型取其 最大,异层之间异质性取其最大」的原则即可。如此可使得层内的数据一致 而集中,标准差愈小,则抽样误差也愈小。 一、对母体平均数的估计 _ y st = 1 k _ 人N i yi N i 人1 .......................................... (5.1) _ 二、 y st 的变异数估计(抽出不放回) ^ _ V ( y st)= k 1 N i2 ( si2 / ni )((Ni - ni)/ Ni) .......... (5.2) 人 N i 2 人1 三、对母体百分比的估计 ^ p st = 1 k ^ 人 N i pi N i 人1 .......................................... (5.3) ^ 四、 p st 的变异数估计(抽出不放回) ^ ^ V ( p st)= Ni) .... (5.4) 1 N k ^ ^ N i2 ( p i (1 - p i)/ ni - 1)((Ni - ni)/ 2 人 i 人1 15 五、各层样本数的分配:纽曼的最佳分配(Neyman’s optimum allocation) 如果不考虑各层的抽样调查费用或是各层的费用没有差别,则 k ni = n (Ni i / 人 N i i ) ..................................... (5.5) i 人1 可导致最小的抽样误差。 陆、比率估计 比率估计并不是抽样方法的一种,却是常用的一种估计方式。它借着辅 助变量当作分母提出一些比前几节直接估计较为间接但却可能更好的估计方 法,譬如回归就是其中一个例子。在接下来要介绍的集体抽样方法用的也是 比率估计。 一、对母体比率值的估计 n n i 人1 i 人1 _ _ r = ( 人 y i )/ ( 人 x i) = y / x .............................................. (6.1) 二、 r 的变异数估计 ^ 2 人N 人 1人 1 V (r)= 人 人 2 sr 人 nN 人 人 ..................................................... (6.2) x 2 式中 sr = n (yi - rxi)2 / (n - 1) 人 i 人1 16 .................................... (6.3) 三、对母体平均数的估计 ^ n n (6.4) i 人1 i 人1 人 y = (( 人 y i )/ ( 人 x i))x = r x ..................................... ^ 四、对 人 y 变异数的估计 ^ ^ 人N 人 n人 2 V ( 人 y )= 人 人 人 nN 人 sr .............................................................. (6.5) 柒、集体抽样 集体抽样(cluster sampling)是先把母群体分割成许多小集群,把这 些小集群编上号码,然后随机抽取这些号码,凡是被抽中的,则整个小集群 的所有成员全部调查。譬如学校的班级就是常用的集群。 这个方法的冒险性非常大。主要的功能是节省时间、人力和经费,是很 不得已的作法,非万不得已不要采用。即使要用,也要守着「集群内部异质 性越大越好」的原则来做。 一、对母体平均数的估计 _ n n i 人1 i 人1 y = ( 人 y i )/ ( 人 mi) ................................................. (7.1) 式中 yi 是第 i 个集体所有样本观察值的加总, n 是抽出的样本集体数, 17 mi 是第 i 个集体的个体数。 _ 二、 y 的变异数估计 人 人 人 N 人n 人 2 V ( y )= 人 人 sr _ 人 2人 人Nn M 人 ^ _ 2 n ........................................................ (7.2) _ 式中 sr = 人 (yi - y mi)2 / (n - 1) .................................... (7.3) i 人1 N 是母体总集体数, _ M 是母体平均每一集体的个体数。 捌、多阶段集体抽样 一、两段集体抽样(two-stage cluster sampling) 两段或多段集体抽样其实并没有「集体全查」的意思,它是指在第一个 阶段先抽出一部分集体(Primary Sampling Unit, PSU),譬如说大学,然 后在下一个阶段自中选的集体抽出第二阶段的集体(Secondary Sampling Unit, SSU) ,譬如说系所,其次在最后阶段抽出样本个体,譬如说学生。 (一)对母体平均数的估计(假设每个阶段都是SRS抽出) 18 ^ n (8.1) i 人1 _ 人 = (N / M) 人 M i y i / n ............................................................. 式中 Mi 是母体第 i 个集体的总个体数, M 是母体所有个体数, _ y i 是第 i 个集体的样本平均数。 ^ (二) 人 的变异数估计 人 人 n 人 N 人n 人 2 1 2 2 人M i 人 mi 人 + M V ( 人 )= 人 人 人 人 (s i / mi) 人 i s _ _ b 人 Mi 人 i 人1 人 2人 nN M 2 人Nn M 人 ^ 式中 ^ n 2 _ sb = 人 (Mi y i i 人1 ^ M 人 )2/(n - 1) 2 _ 人 人 s i = 人 人yij 人 yi 人 / (mi - 1) 人 j 人1 人 2 (8.2) mi _ ........................................... 二、抽取率与单位大小成比例的多阶段抽样(probability proportional to size, pps) 这个方法大多用在规模比较大的抽样工作。譬如调查对象是某个地区七 岁到十二岁的小孩,我们在第一阶段先抽取一部分乡镇市区,第二阶段再自 中选的乡镇市区抽村或居委会,第三阶段再自中选的村或居委会抽户或直接 抽人。在抽样过程中每一阶段各单位的中选机率和那个单位的大小成比例, 也就是单位越大的中选机率越高。但是到最后结算下来,所有全体的每一个 19 成员都有相等的机会被抽中。让我们看一个多阶段抽样的例子(如表8.1): 表8.1 区 个案数 累积个案数 1 1000 1000 2 2000 3000 3 2000 5000 4 1500 6500 5 3000 9500 6 4000 13500 7 2500 16000 现在要从全体七个区总共16000人中第一阶段先抽取两个区,然后再自 中选区中每区各抽50人,也就是自全部16000人中抽取100人。 第一阶段要抽两个区,意思是每隔16000/2=8000人抽一个 区,自1至8000选一个随机数,假设自随机数表第八行开始,我们需要 四位数,结果6094中选,其次6094+8000=14094中选。 这两个号码一个落在第四区,另一个在第七区,所以两个区中选。这个阶段 各区中选的机率要看各区的大小而定。其次,我们再分别自第四区和第七区 各抽50人,方法可以自行决定,单纯随机方式或等距方式均可。为什么说 全体之中的每一个人中选机会都相等呢?譬如李先生位在第三区,他中选的 机率是 2 人 2000 50 100 人 人 16000 2000 16000 20 (把第一阶段的中选率看做是2000/8000可能较容易了解)而王先 生位在第六区,他中选的机率是 2 人 4000 50 100 人 人 16000 4000 16000 很显然的,到最后每一个人中选的机率都是100/16000,也就是早 先决定的抽取率。 (一)对母体平均数的估计 ^ 人 pps = 1 n _ 人 yi ............................................................. (8.3) n i 人1 ^ (二) 人 pps 的变异数估计 ^ ^ V ( 人 pps)= n _ ^ 1 2 人 y ( i pps ) ........... (8.4) 人 n人n 人 1人 i 人1 玖、其它抽样方法 一、双重抽样(double sampling, or two-phase sampling) 这是先以低廉的代价先自全体之中抽取大量的样本,然后再自这群样本 中抽取第二次样本。在流行病学的研究里比较常见到这种方法。通常是先用 很快的方法初步选取大量的样本验血,然后再自有反应的血液中追溯抽样, 选取少数的样本进行详细的查验工作。 在设计流程中,有时会遇到定义母体困难或抽样清册无从建立的情况, 譬如汽车使用者的意见调查,或学校毕业生的成就调查,最常见到的则是某 21 项服务或某项产品的消费者意见调查。这些调查的共同困难是建立抽样清册 极不可能或代价极高。在实务上就可以使用双重抽样来解决,先以较快速低 廉的代价进行抽样调查,如电话访问或信件回邮,只询问受访者资格方面的 问题,其次再自合格的样本中第二次抽样,进行访问。 二、「捉-放-捉」式的野生动物抽样(capture-recapture method) 这种方法主要用来估计野生动物的数目。通常是选定某些地区在一定的 时间内捕捉动物。在动物身上记上标志后放走,隔了一阵时间后再于同一地 区捕捉动物,打上标记后再放走,如此一再重复进行。统计专家们可以用重 复被捉的机率来推算该区动物的总数。 三、 敏感性问题的随机反应估计(randomized response) 有时候研究者必须对敏感性的问题做出合理的估计,譬如同性恋倾向, 考试舞弊,或是堕胎等议题。一个可行的方式是准备一迭卡片,其中有 百分比的卡片是正面陈述,例如「我考试作弊」,其余卡片则是反面陈述, 例如「我考试没有作弊」。访员可以请受访者过目所有卡片后洗牌抽出一张, 然后问受访者「是不是同意抽中卡片上所说的事」,假设所有回答「是」的 受访者人数为 n1 ,则母体考试作弊的百分比估计为: 1 n1 1人 人 2人 人 1 n 2人 人 1 ^ p= ^ ^ V ( p )= ...................................................... (9.1) 1 n1 人 n1 人 人1人 人 ........................................ (9.2) 人 n人 n n 2 人 人 1 人 人 1 2 22 通常 值不等于 0.5 以免分母为零,此外这种估计通常都放在问卷最后一题, 而且不能进行交叉分析。 拾、抽样设计与执行步骤 在我们面临一个抽样调查或研究案时,通常会依照下列步骤进行: 一、 决定数据的搜集方式:面访、邮寄问卷、电话访问、或混 合使用。 二、 定义母体。 三、 决定操作性定义及据以抽样的母体清册,如会员名单、户 籍数据、或电话簿。 四、 决定样本数。 五、 分层。 六、 决定各层样本数。 七、 各层独立进行抽样设计。 八、 分段。 九、 决定各段抽出单位数。 十、 执行。 十一、列出母体参数的推估公式及其变异数之估计式;如有必要加权,列出 加权公式。 以下我们将讨论其中的一些考虑因素。 一、 面访、邮寄问卷、与电话访问 一般说来,面访所需经费最大,行政作业繁杂,访问失败问题严重,数 据质量亦难监控,其抽样设计着重在如何有效率地运用有限资源,使得访员 顺利接近受访者。因此在初步对调查对象的操作性定义上,通常先把困难度 23 高、耗费大、工作负荷重的地区排除在外,或单独列为一次母体另行处理。 邮寄问卷和电话访问渗透力强,无远弗届,行政作业易于掌握,抽样设计束 缚条件极少。然而邮寄问卷有回收率的问题,电话访问有不完整包罗性和问 卷不能深入的问题,抽样设计虽然容易,非抽样的问题则难以解决。 二、 样本数的决定 数据搜集方式和调查对象确定之后,第一件要做的事就是决定样本数。 一般要考虑的因素有: (一)抽样误差 假设非抽样误差(譬如问卷设计不当、访员作假、数据键入错误)不存 在,只计算因抽样而来的估计θ和母体参数θ的差异量,通常用平均差方 (Mean Squared Error,MSE)表示, MSE 人 E (人人 人 人)2 ,E表示期待值或平 均数,则 MSE 人 var(人人) 人 bias2 ,第一项是 人人的变异数,表示每次抽样都会得 到不同的 人人,如果做很多次,这些 人人就会有集中或分散的现象,用 var(人人) 示之, 是对母体参数估计的稳定程度或可靠度的意思;bias表示偏差,如果做许多 次抽样的话,会有许多个 人人,这些 人人的平均数和被估计的母体参数θ的差即 是偏差。一般情况下,偏差均可透过统计方法控制为零,所以抽样误差一般 也指估计的稳定程度。不同的抽样设计和估计方法会有不同的抽样误差,直 接影响到对母体推估的精确程度。样本数越大,得到的估计值越稳定,抽样 误差也越小,但它们之间并不成简单的比例,所以必须咨询专家,决定最有 效率的样本数和可以容忍的推论误差。常见到的抽样误差表达方式,是换算 成对母体参数区间估计的上下限,例如我们常会见到「以95%信赖度估计, 对母体的各项推论最大抽样误差不会超过正负3%」即是。 (二)经费、工作量、和时效 在现实世界里资源有限,样本数的大小通常由可运用资源的多寡来决定, 必须和前一项抽样误差妥协。 24 (三)次母体推论的精确度 抽样调查的目的有时也包括对次母体的推论,譬如以某个地区民众为对 象的抽样调查,会以地区内各县市为推论次母体,若每一县市的推论都要达 到相当程度的精确度,则每一县市就需要相当于那个精确度的样本数,如此 一来,整个调查地区的样本数势必要膨胀。同样的道理,这些次母体有时候 可以是地区、城乡、行业、公私立别等等。 (四)深入研究的必要性 有时候整个调查计划的目的在做深入的比较分析,例如民众的吸烟行为 会和教育程度、性别、行职业、地区、收入、年龄等有密切的关系。欲深入 研究其间之交互作用,则这些因素交叉之后每个组合交集必须要有起码的样 本数,以此最低要求反向推估所需的样本总数。这种性质的调查比起单纯的 母体百分比推估所需的样本数显然较大。 (五)抽取率 从理论上来看,样本数的决定和抽取率并无太大关系,实际上,每100 人抽1人和每500人抽1人,如果样本数相同,虽然母体大小相差很大, 但两者的抽样精确度是可认定为完全相同的。只有在抽取率高于每20人抽 1人时,才要考虑到这个因素。 (六)样本的累积 有些按月、季、年调查的抽样设计,每次调查的样本数是可以累积的, 譬如国民营养状况调查、健康卫生和疾病调查、传播媒体阅听调查等。可以 累积的理由是:这些性质的调查对象生活习惯不会在短期内有重大的改变。 不过要注意的是每次调查的母体定义必须相同,以免每次推论都是以偏概全, 造成严重的偏差。 (七)抽出样本数与有效样本数 由于实务作业上必然会有访问失败的现象.邮寄问卷时这种情况尤其严 重,使得有效样本数只能成为抽出样本数的一个比例而已。如果仅以有效样 本来对母体进行推论的话,则会产生偏差,其幅度等于失败率乘上有效样本 和失败样本的差异。笔者(1989)建议依照预估的成功率扩大抽出样本数,使 25 得最后完成的有效样本数接近原先的规划数,并对失败样本进行抽样追踪访 问,得到有效样本和失败样本之间差异的估计,藉以修正以有效样本来做推 论所造成的偏差。 三、分层与分段 (一)分层 母体定义清楚,样本数决定后,接下来便是搜集有关资料进行分层的 工作;这是因为从抽样理论来看,分层抽样可以很有效地降低推论的误差。 另外一个重要的原因是行政上的考量,以推论次母体来分层(如各县市或公 私立学校)可使抽样调查的目的易于达成。有关工商业界或各行业的抽样调 查尤其需要分层。有些调查不但要依次母体分层,而且还不能合并做统一推 论,例如对各行业的抽样调查就是一个典型的例子,由于绝大部分的企业单 位规模极小,而少数企业单位规模极大,不论以人或以企业单位做为推论的 个案基础都有缺点,最合理的做法是以行业和企业单位规模交叉分层,然后 以各层为次母体独立进行推论。 分层工作的原则是:「同层之内同构型愈大愈好,不同层之间各层平 均数差异量愈大愈好。」如此可以使得推估的误差降至最小。分层之后各层 视同一个独立的母体,分别进行各层的抽样设计。第一件要决定的事是如何 分配各层的样本数。如果我们希望有一个等机率抽样的设计,则采用等比例 方式,依照各层母体人数占母体总人数的百分比分配样本数,亦即 ni=nNi/N,i=1,......,K。其次,我们亦可依各层内部的同质程度来分配 样本数,同构型越高者,分配样本数越少,如此可使样本数做最有效率的运 用,亦称最适分配或纽曼分配。第三种分配方式是立意分配,以主观判断给 予各层样本数,常见的做法是各层样本数相等。 以上第二和第三种方式都会造成不等机率抽样,对母体的推论必须加 权处理。如果先分别计算各层平均数再合并推论母体,则各层之权值为 Wi=Ni/N,亦即各层人数占母体总数的比重,而母体平均数的估计则为 26 k Y 人 人 WiYi i 人1 如果在计算机上操作,以个案为基础直接对母体做推论,则各层之个 案加权值为: W人i 人 nNi / ni N 对母体平均数的估计则为: k ni Y 人 人 人 WiYi j / n i 人1 j 人1 加权处理是很重要的步骤,尤其在不等机率抽样或因样本代表性失真而 采用事后分层方式补救时更是必要,遗憾的是有许多调查应该使用而未使用, 造成推论上严重的失误。 (二)分段 并不是每一个抽样设计都要分段,但是当母体的规模足够大时,以单纯 随机抽样(Simple Random Sampling,SRS)或等距抽样(Systematic Sampling)在实际上无法执行或即使执行了,搜集数据的代价太高时就必须 考虑分段。分段的用意是把样本聚集在少数几个第一抽出单位(Primary Selection Unit,PSU)里以减轻工作量。譬如小学学童的抽样设计,以全体 国小学生名册为对象进行随机或等距抽样事实上不可行,即使可行,访问工 作遍及全境,执行代价亦太高;我们应考虑多段集体抽样方式,第一阶段先 抽出a所学校,第二阶段再自中选的学校每校抽出b班,第三阶段再自中选 的班中每班抽出c人,亦即a×b×c=n。 分段抽样会导致抽样误差的增加,因每一段皆有组间差和组内差,但代 价是值得的。它的理论要求是每一阶段抽出的单位数一定要大于或等于2, 否则抽样误差会因分母是零而无法计算。 27 在实务上,决定各阶段抽出的单位数,最主要的因素是经费和工作负荷 量的分配,其次才是组间差和组内差的考虑。例如北京大学要抽出400个 样本,分两段执行,第一阶段抽系,第二阶段抽人。我们可以抽出40系, 每个系10人;亦可抽出20系,每系20人;或是抽出10系,每系40 人;前者第一段太多,系的代表性顾虑到了,但每系10人,工作分配不易, 且40系会使访员到处奔波,系间差异有了,系内差异可能显现不出来;后 者经费和工作量容易分配,但前段太少,怕代表性不够,也无法显现出系间 差异来,取舍之间没有标准,只能用妥协的方式解决。 总的说来,抽样工作的执行方式不外乎随机、等距、和 PPS 三种。一 般情况下,以等距抽样方式为最好,因为它可透过清册的排序作业控制样本 的代表性,进而降低抽样误差;另外,它又有易于执行的优点。在多段抽样 时, PPS 则是较合理的方式,尤其在第一抽出单位大小不一时更具优越性。 例如中国2797个县、区要抽120个县、区,不论随机或等距抽样,都将2797 个县、区一视同仁,极不合理;但 PPS 配合等距方式执行,却同时考虑到了 代表性和各县区大小不等的实际状况,其执行过程举例而言,可先将2797个 县区依照各县区人口密度由大到小排列,列出各县区人口数,然后逐一累加, 最后得总数N,现欲抽出120个县区,令N/120=K,自1至K抽随机数R, 则在累加数字栏上,R的所在县区中选,其次R+K的所在县区中选,以此 类推,至R+4K的所在县区中选,如此使得大县区中选机会大,小县区中 选机会小,而抽出的120个县区又有高、中、低度人口密度的代表性,这是 其它抽样方式做不到的。 其次,多段 PPS 抽样方式虽然每一个阶段每一个单位中选机率都不相 等,但整体而言,它却是个等机率的抽样设计。以小学生抽样设计为例,假 设我们要在全区小学生(N)中分三段抽出1000名学童,各阶段抽出单位数 分别是20×5×10=1000,亦即抽出20校,每校抽出5班,每班抽 28 出10人,则全区每位小学生的中选机率是: 20人 人 人 人 人 人 人 N 人 5人 人 人 人 人 人 人 10 1000 人 人 人 人 人 人 人 人 人 人 人 人 人 人 N 由此可证母体之中,每一个人的中选机会相等。 三、 时间序列的抽样设计 我们经常会有机会针对同样的主题做时间序列方式的抽样调查,藉以了 解时代的脉动和民意的走向。由于在两个时间点所进行的两个独立调查,只 能观察到整体差异,无法侦测出个体差异,使得抽样设计必须做些改变。例 如5年前吸烟人口有55%,目前则有53%,整体差异下降了两个百分点,但 我们无法知道有多少人在这段期间戒了烟,而又有多少人新加入吸烟的行列, 这5年也许人口结构有了变化,也许人们改变了认知、态度与行为。欲弄清 楚其中缘故,Duncan and Kalton(1987)介绍了几种可行的抽样设计和它们 可达成的目标,这些方法有: (一) 重复进行独立的抽样设计。 (二) 固定样本连续访问。 (三) 样本轮换,按每月、季、年,依序更换一部分样本,重迭 一部分样本。 (四) 混合设计,某一部分设定为固定样本,某一部分设定为轮 换样本。 上述这些方法可视为样本重迭设计,重迭的百分比从百分之百(固定样 本连续访问)到零(独立抽样)。至于如何决定重迭的百分比,则要看调查 目的、资源和容许的抽误差而定。 29 拾壹、抽样实务及相关议题 一、样本代表性的问题 近年来由政府、民间、及学术机构所进行的各种抽样调查相当的多,这 些调查在对母体进行推论时大都建立在「有效问卷」的基础上。在统计理论 上,以单纯随机抽样选出的样本数据在对母体做推论时,受到中央极限定理 的保护,并没有样本代表性的顾虑,但是在资料分析时,通常会针对不同的 人口特征群做进一步的比较分析,诸如性别、年龄、教育程度、地区等,这 些人口特征的代表性是否和母体的分布一致马上就受到考验。 一般说来,国外的抽样调查通常不十分忧虑样本代表性的问题。学者的 研究多偏向失败的处理,但亦可视为样本代表性的补充。Groves and Kahn(1979)曾细致而彻底的比较面访和电话访问的优劣。Dillman(1978)则 针对电话访问和邮寄问卷做比较。样本代表性问题是他们整个研究领域里的 一个环节而已。 (一)影响样本代表性的因素 影响样本代表性的因素大体而言有两个主要部分:一是抽样的设计, 其次是资料搜集的过程。 1. 抽样设计: (1) 母体定义:研究对象通常会有时间、空间、和资格的定义,这些定义 给样本的代表性设定了标准。 (2) 抽样清册(frame)的涵盖性:在实务上抽样清册决定了样本代表性的 最佳状况底线。 (3) 分层与各层样本数的决定:等机率抽样与不等机率抽样的设计会使样 本代表性因人为的干预而受到扭曲。 30 (4) 抽样的执行方式,如随机抽样、系统抽样、集群抽样等不同的技巧都 可能造成不同性质的样本代表性。 (5) 户中选样:在等机率抽户而户中有不同数目的合格受访者时,是否执 行户中选样以及执行的程序都会影响到样本的代表性。 (二)补救办法 对于上述情形一般的补救办法有三: 1. 在时间和经费都许可的情况下继续进行追踪访问,可惜通常皆不可行。 2. 以插补(imputation)方法补足缺失的样本数据。 3. 以事后分层(post-stratification)方式加权处理。 上述插补和加权将在稍后再予介绍。 二、访问失败的问题 政府、企业、与学术机构的各种研究调查多以抽样调查做为搜集资料的 主要方式,其中较为严谨者通常都能先将研究对象予以明确定义后进行抽样, 然后对选出的样本进行数据搜集或衡量的工作。这些工作的执行过程中不可 避免的一定会遭遇到访问失败的问题。一般说来,访问失败有两种情形:一 是没有取得中选样本的全部数据,种为个案无反应(unit nonresponse),二 是没有取得中选样本的一部分数据,例如每月收入等,称为项目无反应(item nonresponse)。后者因为已有部分数据,还可以藉大部分已知的情形来推估 少部分未知项目的期待值。 即使用常识判断都可以知道如果仅用访问成功者的数据来对母体做推论 一定会有偏差。不幸的是,多数调查者在没有更好的办法之下,往往只能依 据访问成功者的数据,或者使用预备样本或替代样本来凑足预定的样本数进 行推论,这些做法所造成的偏差因调查性质而异。如果我们把整个抽样设计 看做是分层抽样,一层是有反应者,或访问成功者,母体数是 N1 ,样本数是 31 n1,另一层是无反应者,或访问失败者,母体数是 N2 ,样本数是 n2 ,所以 母体总数 N 人 N1 人 N2 ,样本总数 n 人 n1 人 n2 。令反应率 W1 人 N1 / N 人 n1 / n, 无反应率 W2 人 N2 / N 人 n2 / n 。假设母体某项特征的百分比是 P ,而所有样 本中具有该项特征的个案数是 X,则, P人 人 X / n,是对母体 P 的无偏估计, E ( P人) 人 P 。 事实上,因为访问失败的情形使我们仅有 x1人 x 人 x2 个具有该项特征的样 本, X 2 是无反应样本中具有该项特征的个案数,因访问失败而未知。令 P人1 人 x1 / n1, P人2 人 x2 / n2 ,而 Pˆ 人 x / n 人 ( x1 人 x2 ) / n 人 n1 x1 n2 x2 人 人 人 人 W1Pˆ1 人 W2Pˆ2.......... .....(1) n n1 n n2 我们知道 P人是对母体百分比 P 的无偏估计。如果仅用成功样本的百分比 P人1 来 代替 P人,则其差距是 Pˆ1 人 Pˆ 人 Pˆ1 人 (W1Pˆ1 人 W2Pˆ2 ) 人 (1人 W1)Pˆ1 人 W2Pˆ2 人 W2 (Pˆ1 人 Pˆ2 )......... (2) 公式(2)的数值可以很容易的推论到母体参数的差距上。换句话说,如果 仅用成功样本的百分比 P人1 来推论母体百分比,则其偏差 E ( P人1) 人 P 可以证明是 等于母体的无反应层比例乘上有反应层中具有该特征的百分比和无反应层中 该项百分比的差距(Cochran,1977.p361) W2 ( P1 人 P2 ) 。用日常生活语言来看, 公式(2)可以看做是访问失败的代价。如果只用成功样本来做推论,则所造成 的偏差等于失败率乘上有反应者和无反应者之间的差异。 Cochran(1977,p362)和洪永泰(1986)曾针对不同的失败率计算出这些偏差 的幅度。 有关这方面的研究在国外自五十年代即有人提出探讨,并做了一些建议 (Politz and Simmons,1949),历经三、四十年不断的充实,虽然迄今仍无 32 一种公认的最佳解决办法,但至少已经建立了一些基本的处理方式和解决方 向。Yates(1933)最早曾以最小平方法来估计不完整的数据,这是插补 (imputation)方法的开始。Hartley(1958)则以最大概似法(Maximum Likelihood Estimate)来做插补。另一方面,Deming(1944)从「再访」 (Callback)技术上下手。这是追踪访问方法的开始。Hansen 和 Hurwitz(1946) 把「访问失败者的二度抽样访问」理论建立起来,他们把再访费用当做是一 个重要的因素来决定再访样本数。Politz-Simmons(1949,1950)则根据 Hartley 的想法而发展出一套加权办法,以不同层的失败率反算回去各层的 加权数,藉以修正因访问失败而造成的推论偏差。 遗憾的是,虽然这方面的研究已有数十年的历史,可是始终无法确定一 个良好可行的补救办法。1977 年美国国家科学院(National Academy of Sciences)的国家研究会议(National Research Council)乃责成其国家统计 委员会(Committee on National Statistics)和「行为、社会科学、及教育委 员会」(Commission on Behavioral and Social Sciences, and Education) 组成一个「不完整数据讨论小组」(Panel on Incomplete Data),聚集各方 学者专家综合总结有关抽样调查中访问失败问题的研究,做出一个回顾性的 总整理,其最后报告三巨册于 1983 年问世(Madow et al,1983)。稍后, Rubin(1987)将多重插补法(Multiple Imputation)专辑成书。Little and Rubin(1987)则对统计上遗漏数据(Missing data)的分析做了完整的处理。 这三本书可以说是当今有关访问失败问题最重要的参考书籍。 关于访问失败的补救办法大体上可分为三大类:一是加权处理 weighting),二是插补(imputation),三是建立模型(model building)。这 三类方法当中有许多处理原则在实际运用上变成相同的程序和结果,稍后将 予介绍。 33 三、加权 加权议题在抽样调查方法论的领域里早已存在,先进国家有关这方面的 理论研究与实务操作已有相当规模,且因研究设计和数据搜集方式日新月异 而不断推陈出新,其间比较具有里程碑意义的文献有: (一)Deming and Stephan(1940):事后分层重复多个变数逐一加权; (二)Hansen and Hurwitz(1943):以抽取率的倒数加权; (三)Horvitz and Thompson(1952):以单位中选率的倒数加权; (四)Kish(1965):加权的理论与实务,偏向应用层面; (五)Madow, Olkin, and Rubin(1983):阶段性总整理的论文集; (六)Survey Methodology 13 卷 2 期(1987):个人与家户加权议题特刊; (七)Kasprzyk, Duncan, Kalton, and Singh(1989):时间序列下的加权; (八)Survey Methodology 21 卷 1 期(1995):时间序列下个人与家户加权 的议题; 如果先不考虑复杂的研究设计,只论大家熟悉的独立抽样调查个案,则 一般情况之下所涉及的加权处理方式大略可归类为以下几种: (一)如果是不等机率的抽样设计,则以每个个体中选机率的倒数加权;这 个权值也有人称为「放大系数」或「膨胀系数」。例如某校有30个系,10,000 名学生,现在要抽样调查全校学生吸烟的比例,决定以随机方式抽出10个系, 每个系抽出10个学生,总计样本数100人。这个抽样设计使得每个系中选机 率都是10/30,但因每个系学生人数并不相等,造成每个学生的中选机率到 最后变成 (10/30)*(10/A i ),A i 是每系的学生数,所以是个不等机率 的抽样;表12.1是个假设性的说明: 表12.1 一个假设的不等机率抽样下不加权与加权的比较 34 学系编号 学生数 样本数 吸烟人数 抽取率 权值 推估 1 250 10 3 (10/30)*(10/250) 75 225 2 120 10 2 (10/30)*(10/120) 36 72 3 560 10 5 (10/30)*(10/560) 168 840 4 420 10 4 (10/30)*(10/420) 126 504 5 180 10 1 (10/30)*(10/180) 54 54 6 220 10 4 (10/30)*(10/220) 66 264 7 480 10 3 (10/30)*(10/480) 144 432 8 360 10 1 (10/30)*(10/360) 108 108 9 240 10 2 (10/30)*(10/240) 72 144 10 520 10 6 (10/30)*(10/520) 156 936 100 31 3579 31% 35.79% 合计 估计母群体抽烟比率 (二)如果是等机率抽户,再以户中选样程序每户抽出一位受访者,则因 每户的合格人数不相等而造成不等机率抽样,应依上一项原则处理。这个加 权程序在美国一向被忽略,因为美国的家户结构差异性较小,加权虽有其正 当性,但影响估计成效极微,传统上被认为不值得而遭忽略。 (三)分层抽样在合并全体数据对母体进行推估时,通常需要考虑使用比 较适用的估计方法,例如最基本的形式是以各层样本平均数乘上各层母体比 k 重(亦即各层权值),常见的公式是: y = 人 w i y i 式中 w i = N i / N i 人1 ,N是母体总个案数,N i 是母体第 i 层总个案数;但也有引用辅助变量成为 比率估计(ratio estimate)的作法,此一辅助变量即成为权值,例如 r = Σy / Σx ,届时可以考虑的选择就多了,可以先在各层内先得到各层的 r 值再依各层比重合并,也可以先分别加权合并各层的 y 和 x 然后再计算最 后的 r 。 35 (四)以事后分层(post-stratification)方式加权,这是完全不顾数据的搜 集过程,只考虑将现有的数据依照已知的母体分布结构给予每一个案一个权 值使得加权后的数据在加权变量的分布上和母体一致,是标准的「锯箭」作 法。这种作法的好处是可以提高估计的准确度,也可以补救因为抽样清册涵 盖性不完整以及访问失败和样本代表性方面的缺失;只是在使用时必须具备 两个条件:一是必须知道母体中各层的比重,二是各层样本数必须够大, Scheaffer et al(1990)以为各层样本数至少应有20人。事后分层对母体参数的 估计和各层权值的计算公式是: 1 k N n ni n 1 Ni i i = y 人 人 人y ij i 人1 N j 人1 ni n i 人1 N ni j 人1 ij k k y = 人w i y i = 人 i 人1 = 1 k ni * 人 人 w i y ij ni j 人1 人1 * 式中 wi = (N i / N)*(n / n i ) 即是以个案为计算单位的权值,我们也 可以看出第 i 层之内每个个案权值都是相同的。至于母体平均数估计的变异 量估计则是: k k 2 var( yst ) 人 ( N 人 n) / Nn人 WS i i 人 (1/ n )人 (1人 Wi )Si i 人1 2 2 i 人1 这个公式的第一项和一般分层抽样的结果完全相同,第二项是事后分层的代 价,但是数量极小,因为在正常的样本数情况下1/ n2 几乎可以忽略。 (五)涵盖性不足(non-coverage)及访问失败(non-response)的补救加权, 这几乎是文献上讨论最多的议题,理论和实务的建议处理方式极多, 可是 绝对居优势或适用条件最好的方法仍未产生。本文将使用分组推估访问成功 率,然后以其倒数为放大系数的作法加权并评估其成效。 36 (六)多个变数逐一加权反复操作至收敛为止(raking),这是在实务上通 常研究者会有某些变量的母体分布数据,或相当好的母体分布估计数据,但 是不会有变量间的交叉分布母体数据,例如研究者当然会有某个地区各县市 的人口分布数据,也可能有不错的教育程度的分布数据,但却没有各县市内 各种教育程度分布数据,加权的作法是先把样本数据分组,然后挑选一个变 量如县市,以事后分层的方式加权将全体样本的县市分布调整到和母体分布 一致,再以这时后的样本教育程度分布为基础,进行教育程度变量的加权, 结果会使教育程度分布「正确」但县市分布又「歪」了,此时再回来重复先 前的步骤,每个步骤都继之以样本与母体分布是否一致的统计检定,一直到 整个样本数据「看谁像谁」时为止。 (七)时间序列的抽样设计或固定样本连续访问(panel survey)之下的加权 处理都不在本文的讨论范围之内,不过这里面有一些相当好的工具可以应用 到一般抽样调查研究的估计上,譬如在长期时间序列的研究下,某一个月份 或季节的数据可以引用该月份或该季节的全年组合权值直接估计全年数据。 四、插补 首先简单介绍一些主要的插补程序如下: (一) 以成功样本的平均值做为每一个失败样本的值(mean imputation)。 (二) 根据一个或数个与访问失败无关的变数分层,以各层层内成功样本之平 均值做为该层内每一个失败样本之值(Mean Imputation Within cells)。 (三) 自成功样本中抽样,以中选的样本观察值做为失败样本之值。此即所谓 的 Hot Deck Imputation。 (四) 先分层,然后在各层之内做上述之 Hot Deck Imputation。 37 (五) 自其它来源抽样取得样本观察值做为失败样本之值。此即所谓的 Cold Deck Imputation。 (六) 自母体中再取样替代失败样本。 (七) 自失败样本中再取样,进行追踪访问。 (八) 使用成功样本的数据,以回归方法预测失败样本之数值(Regression Imputation)。 (九) 对每一个失败样本给予M个数值代入,每一个数值代入后并入成功样本 数据分析,得到一个结果,如此总共可以得到M个分析结果,再以随机 方式抽取一个结果,或采用这M个分析结果的平均值,此即多重插补法 (Multiple Imputation)。 上述这些方法,有的已经有完整的理论根据,但也有的只有步骤而无理 论。无论如何,大部分方法都建立在一些假设条件之上,有的假设失败情形 的随机性,有的假设失败样本遵守某一特定机率分布,而且所有的假设都针 对一个观察变量而言。在现实世界里,也许某一个变量的分布可以掌握的住, 但几十个变量的分布都要符合这些假设条件颇为困难,也就是因为如此,使 得各种补救办法的优劣成效很难区分开来。 五、抽样误差的估计 随着抽样调查方法的广泛被使用,不论研究者最后是采用何种型式来分 析调查数据,关于如何交待其所获得的变项测量值是否精确(precision), 也愈来愈成为一项好的研究所必须具备的条件。分析变项测量值是否精确, 最普遍的作法就是观察变项统计量的变异数估计值(Wolter,1985)。一般而 言,研究者并无法确知测量变项的真实统计量及其变异数是多少,因此,只 能透过抽样调查所得的资料来加以估算。估算变异数的功能除了能了解变项 38 统计量测量的离散情形,同时也能增进对调查资料抽样设计本质的了解(例 如样本选取的程序)。 估算变异数的功能,除了在了解变项统计量的离散趋势,同时也能对抽 样设计本质有所了解。因此,不仅要考虑适用的估计式(estimator),同 时也要考虑到实际执行估算所采用的抽样设计(sampling design)。适用 的估计式要如何选择?Wolter(1985)曾提出三项考虑标准: 一、准确度(accuracy):主要有二种衡量的标准,第一种是能够使样本变 异数的均方差(Mean Squre Error, 简称 MSE)为最小的估计式 (estimator), 应该就是一个最理想的估计式。第二种是估计变异数均方差的估计式,所存 在的估计区间(interval estimate)是最恰当的。 二、行政限制(administration):在资源有限的情形下,行政配合程度是 很重要的考虑因素。变异数估算方法应该具有成本效益,亦即可以有效降低 成本及节省时间,并能得到相当不错的结果。虽然,这样的方法有时候可能 会对准确性会造成某些影响,但仍然是应该被考虑的。毕竟研究本身有时候 是需要强调时效的重要性,因此作业时间的限制以及计算环境能否配合,也 都是应该被列入行政考虑。 三、简易性(simplicity):与上述二项因素有紧密的关联,主要有三方面 的考虑。第一,当前执行复杂抽样通常是有多重目的,如从理论的精确度来 看,许多变项往往需要相对的变异数估计式。所以在资源不足时,常会简化 估计式,因此最后使用的估计式也许不是最适当的(optimal),却也是能 39 容忍损失若干精确度(loss of accuracy)。第二,当前已有不少估计抽样 变异的计算机作业软件,但有些只适合特定的估计式,有些则是只提供特定 的 用途。究竟什么样的软件包(程序)能够最适用大多数的估计式?最能普 遍为研究人员使用?以及是否有足够的软件(程序)编修人员?等都是考虑 的重点。第三,执行调查的赞助者意图以及调查资料本身的用途,也会决定 变异数的估计式简化的情形。 传统上,针对复杂抽样调查的变异数估计,随机分群变异数估计法 (Random Groups method of variance estimation)是首先被发展出来 的简化估计式(Wolter, 1985)。这种方法也有另外的称呼,例如 Mahalanobis(1939,1946)将这些样本称为交叉切割样本 (interpenetrating samples);Deming(1956)则另外将此样本称为重 复样本(replicate samples);Hansen、Hurwitz、及Madow(1953) 等人则称此种方法是在多段抽样调查时的一种最终群聚法(ultimate cluster)。不论是上述何种称呼或说法,基本上随机分群变异数估计法主要 就是将原全体样本按照相同的抽样设计,切割成两组或多组次样本,每一组 次样本都可以得到特定变项的统计量,然后合并这两组或多组次样本的统计 量,就可以计算出一个全体次样本统计量的变异数估计值。这个全体次样本 统计量的变异数估计值与原始的全体样本统计量的变异数估计值相比较,就 可以了解到抽样设计可能存在的效果。 随机分群变异数估计法有两种基本的型态。第一种是随机分群得到的各 组次样本彼此都是相互独立的。另外一种则是各组次样本并非完全独立,彼 此之间是有关联的。第一种型态是在理论上最完整,却是最难在实务应用上 发现。 40 本文将介绍三种估计方式来估算抽样变异。这三种方法基本上都是遵循 随机分群变异数估计法的原则,其中一种是各次样本组相互独立,另外二种 则是各次样本组互有重迭关系。 一、两组独立的半样本(Half-samples) 配合原有的抽样设计,将原始各层样本依照第一抽出单位(如乡镇市区) 切割成单、双号两套次样本,然后再将各层的单、双号次样本分别合并成为 一组样本,由于各层的单、双号次样本在合并过程中是彼此分开,因此最后 得到的是二组独立的半样本。透过这二组独立的半样本,可以得到特定变项 统计量的标准差A;而原始的全体样本也可以求出特定变项统计量在简单随 机抽样(Simple Random Sampling, SRS)下的标准差B;最后将两者相比较 (A2/B2),就能得出抽样的设计效果(Design effect , deff),以作为校 正抽样误差统计推论的参考值。 二、不独立的十二组平衡半样本(Balanced half-samples) 配合原有的抽样设计,将原始各层样本依照第一抽出单位(如乡镇市区) 切割成单、双号两套次样本,然后依照Wolter(1985)提供的抽样方型阶 序表(Matrix of order),抽取各层的单号或双号次样本并合并成为一组 样本,依此反复抽取。这样的方型阶序表是经过特殊设计的一个矩阵,能够 使产生的各组随机次样本最趋向于彼此独立。其次再如先前所叙述的方法及 步骤,最后得出抽样的设计效果。 三、Jackknife估计法 配合原有的抽样设计,将原始各层样本依照第一抽出单位(如乡镇市区) 切割成单、双号两套次样本,然后每次舍去一组次样本,合并其余的各组次 41 样本求出特定变项统计量的平均值,依此反复进行 K 次,最后根据这 K 次 平均数,就可以求算出特定变项统计量的变异数估计值。接着一如先前所叙 述的方法及步骤,最后可以得出抽样的设计效果。 前面三种作法提到特定变项使用简单随机抽样(SRS)所得的统计量标准 差B,也就是原始全体样本统计量的标准差B,可视为是抽样的"一般平均误 差参考值";而研究实际采用的抽样方法所得到的标准差A,也就是全体次样 本合并估算的标准差A,可视为是抽样的"实际平均误差参考值",这两项数 2 值相除平方(A/B) 后所得的比值deff,代表两种抽样方法相对的误差评判 值,可作为事后校正抽样设计误差的效果调整值。 当deff>1时,代表研究所采用的抽样设计并未能更有效的降低随机抽样 所会产生的误差情形。当deff=1时,代表研究所采用的抽样设计与采用随 机抽样所会产生的误差相同,抽样误差的程度并没有因采用不同的抽样方法 升高, 但也未能有效降低随机抽样误差。当deff<1时,则代表研究所采用 的抽样设计可以有效减低一般随机抽样所产生的误差,因此抽样的结果能更 有效率。 参考文献 洪永泰 1989 「抽样调查中访问失败问题的处理」,社会科学论丛,37辑, 33-55。 1995 「抽样调查中户籍资料适用性之探讨」, 选举研究 ,2(2): 83-97。 1996 户中选样之研究,台北:时英出版社。 Cochran, W.G. 1977 Sampling Techniques, 3rd Ed., New York : John Wiley and Sons. 42 Deming, W.E. 1956 “On simplification of Sampling Design through Replication with Equal Probabilities and Without Stages,” Journal of the American Statistical Association, 51, 24-53. Deming, W. E. and F. F. Stephan 1940 “On a Least Square Adjustment of a Sampled Frequency Table When the Expected Marginal Totals Are Known.” Annals of Mathematical Statistics, 11, 427-444. Duncan, G.J. and G. Kalton 1987 “Issues of Design and Analysis of Surveys Across Time,” International Statistical Review, 55, 1, 97-117. Hansen, M. H. and W. N. Hurwitz 1943 “On the Theory of Sampling from Finite Populations,” Annals of Mathematical Statistics, 14, 332-362. Hansin, M.H. Hurwitz, W.N. and Madow, W.G. 1953 Sample Survey Methods and Theory, New york:John Wiley and Sons. Horvitz, D. G. and D. J. Thompson 1952 “A Generalization of Sampling Without Replacement from a Finite Universe.” Journal of the American Statistical Association, 47, 663685. Kasprzyk, D., G. Duncan, G. Kalton, and M. P. Singh (eds) 1989 Panel Surveys, New York: John Wiley and Sons. Kish, L. 1965 Survey Sampling, New York: Wiley. Madow, W. G., I. Olkin, and D. B. Rubin (eds.) 1983 Incomplete Data in Sample Surveys, Volume 2, Theory and Bibliographies, New York: Academic Press. Mahalanobis, P.C. 1939 “A Sample Survey of the Acreage Under Jute in Bengal,” Sankhya, 4, 511-531. 1946 “Recent Experiments in Statistical Sampling in the Indian Statistical Institute,” Journal of the Royal Statistical Society, 109, 325-378. 43 Scheaffer, R.L., Mendenhall, W. and Ott, R.L. 2006 Elementary Survey Sampling, 6th Ed., Duxbury Press. Survey Methodology, Ottawa: Statistics Canada. Wolter, Kirk M. 1985 Introduction to Variance Estimation, New York : Spinger-Verlag. 44 附录一:随机数表 横列 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 19223 73676 45467 52711 95592 68417 82739 60940 36009 38448 81486 59636 62568 45149 61041 14459 38167 73190 95857 35476 71487 13873 54580 71035 96746 96927 43909 15689 36759 69051 05007 68732 45740 27816 66925 08421 53645 66831 55588 12975 96767 72829 88565 62964 19687 37609 54973 00694 71546 07511 95034 47150 71709 38889 94007 35013 57890 72024 19365 48789 69487 88804 70206 32992 77684 26056 98532 32533 07118 55972 09984 81598 81507 09001 12149 19931 99477 14227 58984 64817 16632 55259 41807 78416 55658 44753 66812 68908 99404 13258 35964 50232 42628 88145 12633 59057 86278 05977 05233 88915 05756 99400 77558 93074 69971 15529 20807 17868 15412 18338 60513 04634 40325 75730 94322 31424 62183 04470 87664 39421 29077 95052 27102 43367 37823 36089 25330 06565 68288 87174 81194 84292 65561 18329 39100 77377 61421 40772 70708 13048 23822 97892 17797 83083 57857 66967 88737 19664 53946 41267 28713 01927 00095 60227 91481 72765 47511 24943 39638 24697 09297 71197 03699 66280 24709 80371 70632 29669 92099 65850 14863 90908 56027 49497 71868 74192 64359 14374 22913 09517 14873 08796 33302 21337 78458 28744 47836 21558 41098 45144 96012 63408 49376 69453 95806 83401 74351 65441 68743 16853 45 96409 27754 32863 40011 60779 85089 81676 61790 85453 39364 00412 19352 71080 03819 73698 65103 23417 84407 58806 04266 61683 73592 55892 72719 18442 77567 40085 13352 18638 84534 04197 43165 07051 35213 11206 75592 12609 47781 43563 72321 94591 77919 61762 46109 09931 60705 47500 20903 72460 84569 12531 42648 29485 85848 53791 57067 55300 90656 46816 42006 71238 73089 22553 56202 14526 62253 26185 90785 66979 35435 47052 75186 33063 96758 35119 88741 16925 49367 54303 06489 85576 93739 93623 37741 19876 08563 15373 33586 56934 81940 65194 44575 16953 59505 02150 02384 84552 62371 27601 79367 42544 82425 82226 48767 17297 50211 94383 87964 83485 76688 27649 84898 11486 02938 31893 50490 41448 65956 98624 43742 62224 87136 41842 27611 62103 48409 85117 81982 00795 87201 45195 31685 18132 04312 87151 79140 98481 79177 48394 00360 50842 24870 88604 69680 43163 90597 19909 22725 45403 32337 82853 36290 90056 52573 59335 47487 14893 18883 41979 08708 39950 45785 11776 70915 32592 61181 75532 86382 84826 11937 51025 95761 81868 91596 39244 41903 36071 87209 08727 97245 96565 97150 09547 68508 31260 92454 14592 06928 51719 02428 53372 04178 12724 00900 58636 93600 67181 53340 88692 03316 附录二:抽样设计实例 中国抽样设计 地区 母体数据 总人口数 15 岁以上 总人口 15 岁以上 县区数 总人口数 百分比 人口比例 分层数 抽样县数 (A) (P) 东部地方 中部地方 西部地方 总计 40991904 32724709 2 6 52702644 39862805 4 6 30242843 22722384 1 0 12393739 95309899 17 2 抽样方案 乡镇街道 村居委会 抽样数 抽样数 公民 抽样数 (B) (C) (D) 总样本数 33% 34% 700 11 46 2 2 4 ~ 11 1224 43% 42% 1204 16 52 2 2 4 ~ 11 1488 24% 24% 893 10 32 2 2 4 ~ 11 824 100% 100% 2797 37 130 3536 资料来源:国务院人口普查办公室‧国家统计局人口和社会科技统计司编,「2000人口普查分县资料」,2003年3月一版,北京: 中国统计出版社 46 东部地方抽样设计:11 层 抽样设计架构 分层 编号 抽样 乡镇街道 村居委会 村居委会 各层抽取 县数 抽样数 抽样数 抽取人数 样本数(E) (B) (C) (A (D) 城镇 人口 % % % 157 6 2 2 7 168 99.97 13.55 9.04 16.52 32.47 137 6 2 2 6 144 88.06 16.42 6.70 25.88 36.69 16.33 46.08 129 4 2 2 8 128 42.59 18.05 8.48 34.70 36.67 26.43 46.20 15 岁以 预估分配 县区数 上人口比 样本数 (n=1200) 例 13.07 参考变项数值 0-14 岁 65 岁以 人口 上人口 小学 初中 % % 第一级 第二级 产业人 产业人 口% 口% 1 98 2 72 3 63 4 63 7.61% 91 4 2 2 6 96 55.89 19.67 7.76 31.50 37.69 38.11 34.42 5 26 2.88% 35 2 2 2 4 32 54.35 24.37 7.90 37.23 33.66 61.82 16.65 6 77 152 6 2 2 6 144 25.54 21.43 7.89 34.96 39.68 78.85 7 69 7.80% 94 4 2 2 6 96 26.74 23.47 8.51 39.33 32.45 66.69 15.35 8 38 5.57% 67 2 2 2 8 64 99.54 13.61 6.69 19.62 42.63 % 11.42 % 10.78 % 12.68 % 47 2.32 38.23 9.01 5.84 57.67 9 67 8.93% 107 4 2 2 7 112 25.89 30.97 7.75 43.06 29.65 76.42 10 45 5.78% 69 2 2 2 9 72 40.71 21.84 8.42 37.47 32.76 52.54 25.42 11 82 162 6 2 2 7 168 26.83 21.07 8.60 36.45 36.41 73.61 13.93 合计 700 100% 1224 53.02 20.13 8.07 31.90 35.35 44.99 27.75 13.49 % 1200 46 9.23 中部地方抽样设计:16 分层 抽样设计架构 参考变项数值 预估分配 乡镇街道 村居委会 15 岁以 各村居委 65 岁以 第一级产 第二级 样本数 抽样 抽样数 抽样数 会抽取人 各层抽取 城镇人 0-14 岁 上人口 小学 % 初中 % 分层编号 县区数 上人口比 业 产业 (n=1470 县数(A) 样本数(E) 口 % 人口 % ( B ) ( C ) 例 数 (D) % 人口 % 人口 % ) 1 110 5.51% 81 2 2 2 10 80 99.65 17.03 6.16 18.99 36.58 6.75 46.81 2 34 2.48% 36 2 2 2 5 40 100.00 14.17 7.10 15.42 29.60 1.45 29.09 3 71 4.15% 61 2 2 2 8 64 91.66 17.35 6.30 21.06 36.59 17.72 37.36 4 71 5.61% 83 2 2 2 10 80 32.67 23.16 6.19 32.66 39.52 60.44 18.05 5 68 10.24% 151 6 2 2 6 144 11.69 27.56 7.19 38.67 36.63 90.34 2.71 6 84 8.00% 118 4 2 2 7 112 21.94 23.39 6.73 37.51 38.18 77.85 8.42 7 78 7.13% 105 4 2 2 7 112 22.75 24.71 6.72 32.24 42.39 75.24 10.53 8 109 6.09% 89 4 2 2 6 96 66.42 20.57 6.22 27.40 37.42 40.40 27.52 48 9 65 5.87% 86 2 2 2 11 88 11.29 27.03 6.96 47.01 27.19 85.42 4.59 10 73 6.16% 91 4 2 2 6 96 18.42 26.44 6.80 42.20 30.48 75.25 10.10 11 98 6.97% 103 4 2 2 6 96 30.88 23.66 7.05 36.04 36.90 67.11 14.58 12 85 8.42% 124 4 2 2 8 128 10.28 25.16 7.25 32.56 43.30 88.60 3.96 13 85 7.22% 106 4 2 2 7 112 13.44 23.02 7.62 41.47 34.15 83.65 5.45 14 64 6.73% 99 4 2 2 6 96 21.70 22.68 6.50 38.58 37.87 81.98 5.61 15 62 5.29% 78 2 2 2 10 80 37.87 24.27 6.69 37.67 34.52 71.45 10.58 16 47 4.14% 61 2 2 2 8 64 20.37 28.59 6.84 46.53 29.92 83.42 5.00 1204 100.00% 1470 52 5 ~ 11 1488 38.75 22.96 6.74 33.77 36.28 62.42 16.03 合计 西部地方抽样设计:10 分层 抽样设计架构 分层 编号 县区数 1 76 15 岁以 预估分配 上人口 样本数 比例 10.06 % 抽样 县数 (n=834) A) 84 4 参考变项数值 乡镇街道 村居委会 抽样数 抽样数 各村居委 各层抽取 城镇 0-14 岁 65 岁以 小学 % (B) ( C ) 会抽取人 样本数(E) 人口 % 人口 % 上 % 数 (D) 2 2 5 49 80 95.66 16.78 初中 % 5.85 20.41 33.08 第一级产 第二级产 业 业 人口 % 人口 % 10.04 38.79 2 72 7.00% 58 2 2 2 7 56 62.33 21.86 5.11 29.90 32.63 43.34 23.32 3 125 104 4 2 2 6 96 23.27 24.14 5.85 36.51 33.28 71.70 10.65 4 94 118 4 2 2 7 112 15.14 23.50 6.70 40.17 32.63 84.96 4.86 5 98 89 4 2 2 6 96 27.55 26.62 5.91 41.65 23.28 78.43 7.13 6 59 6.76% 56 2 2 2 7 56 43.31 23.03 5.58 34.69 31.49 63.08 13.67 7 76 8.85% 74 2 2 2 9 72 17.77 26.87 6.54 45.98 26.06 82.21 5.73 8 115 109 4 2 2 7 112 12.22 30.49 5.87 48.84 17.46 88.50 3.41 9 99 5.71% 48 2 2 2 6 48 6.59 30.55 4.93 32.63 9.61 88.53 2.10 10 79 95 4 2 2 6 96 9.97 26.91 6.42 48.12 24.52 88.47 3.35 合计 893 100% 834 32 824 28.60 25.47 5.88 38.43 25.88 72.14 10.33 12.42 % 14.13 % 10.66 % 13.04 % 11.38 % 5~9 50