您的浏览器Javascript被禁用,需开启后体验完整功能, 请单击此处查询如何开启
网页 资讯 视频 图片 知道 贴吧 采购 地图 文库 |

高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计案例课件文新人教A版_高考_高中教育_教育专区

4人阅读|次下载

高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计案例课件文新人教A版_高考_高中教育_教育专区。抓 基 础 · 自 主 学 第九章 算法初步、统计与统计案例 课 习 时 分 第四节 变量间的相关关系与统计案例 层 明 考 训 练 向 · 题 型 突 破 [


抓 基 础 · 自 主 学 第九章 算法初步、统计与统计案例 课 习 时 分 第四节 变量间的相关关系与统计案例 层 明 考 训 练 向 · 题 型 突 破 [考纲传真] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变 量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公 式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思 想、方法及其简单应用.4.了解独立性检验(只要求 2×2 列联表)的思想、方法及 其初步应用. 1.回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判 断相关性的常用统计图是__散_点__图___;统计量有相关系数与相关指数. (1)在散点图中,点散布在从__左_下__角___到_右__上_角____的区域,对于两个变量的 这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从__左_上__角____到__右__下_角____的区域,两个变量的这 种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在__一__条_直__线____附近,称两个变量 具有线性相关关系. 2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的__距_离__的_平__方_和______最小的方 法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…, n n (xn,yn),其回归方程为__^y_=__b^_x_+__a^_,则b^=∑i=1n ?xi- x ??yi- y ?=∑in=1xiyi-n x y , ∑i=1 ?xi- x ?2 ∑i=1xi2-n x 2 a^= y -b^ x .其中,b^是回归方程的_斜__率___,a^是在 y 轴上的截距. 3.残差分析 (1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为 ei=yi-bxi-a,i=1,2,…,n,其估计值为^ei=yi-^yi=yi-b^xi-a^,i=1,2,…, n,^ei 称为相应于点(xi,yi)的残差. n 1- ∑i=1 n ?yi-^yi?2 (2)相关指数:R2=____∑__i=_1__?_y_i-__y_?_2__. 4.独立性检验 (1)利用随机变量 K2 来判断“两个分类变量_有__关_系____”的方法称为独立性检 验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类 变量 X 和 Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2 列联表)为 a y1 y2 总计 x1 a b __a+__b___ x2 c d c+d 总计 a+c __b_+_d___ a+b+c+d n?ad-bc?2 则随机变量 K2=?_a_+__b_?_?a_+__c_?_?b_+__d_?_?_c_+__d_? (其中 n=a+b+c+d 为样本容量). 1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关 系.( ) (2)某同学研究卖出的热饮杯数 y 与气温 x(℃)之间的关系,得回归方程y^= -2.352x+147.767,则气温为 2℃时,一定可卖出 143 杯热饮.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进 行相关性检验.( ) (4)若事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越 小.( ) [答案] (1)√ (2)× (3)× (4)× 2.(教材改编)已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x =3, y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y^=0.4x+2.3 B.y^=2x-2.4 C.y^=-2x+9.5 D.y^=-0.3x+4.4 A [因为变量 x 和 y 正相关,排除选项 C,D.又样本中心(3,3.5)在回归直线 上,排除 B,选项 A 满足.] 3.(2015·全国卷Ⅱ)根据下面给出的 2004 年至 2013 年我国二氧化硫年排放 量(单位:万吨)柱形图,以下结论中不正确的是( ) 图 9-4-1 A.逐年比较,2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关 D [对于 A 选项,由图知从 2007 年到 2008 年二氧化硫排放量下降得最多, 故 A 正确.对于 B 选项,由图知,由 2006 年到 2007 年矩形高度明显下降,因 此 B 正确.对于 C 选项,由图知从 2006 年以后除 2011 年稍有上升外,其余年 份都是逐年下降的,所以 C 正确.由图知 2006 年以来我国二氧化硫年排放量与 年份负相关,故选 D.] 4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了 100 位居民进行调查,经过计算 K2≈0.99,根据这一数据分析,下列说法正确的是 A.有 99%的人认为该电视栏目优秀 () B.有 99%的人认为该电视栏目是否优秀与改革有关系 C.有 99%的把握认为该电视栏目是否优秀与改革有关系 D.没有理由认为该电视栏目是否优秀与改革有关系 D [只有 K2≥6.635 才能有 99%的把握认为“ 该电视栏目是否优秀与改革有 关系” ,而即使 K2≥6.635 也只是对“ 该电视栏目是否优秀与改革有关系” 这个论 断成立的可能性大小的结论,与是否有 99%的人等无关,故只有 D 正确.] 5.(2017·贵阳检测)若 8 名学生的身高和体重数据如下表: 编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 54 64 61 43 59 第 3 名学生的体重漏填,但线性回归方程是y^=0.849x-85.712,则第 3 名学 生的体重估计为________kg. 50 [设第 3 名学生的体重为 a,则 18(48+57+a+54+64+61+43+59)=0.849×18(165+165+157+170+175 +165+155+170)-85.712. 解得 a≈50.] 相关关系的判断 (1)(2015·湖北高考)已知变量 x 和 y 满足关系 y=-0.1x+1,变量 y 与 z 正相关.下列结论中正确的是( ) A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关 (2)x 和 y 的散点图如图 9-4-2 所示,则下列说法中所有正确命题的序号为 ________. ①x,y 是负相关关系; 图 9-4-2 ②在该相关关系中,若用 y=c1ec2x 拟合时的相关指数为 R21,用y^=b^x+a^拟 合时的相关指数为 R22,则 R21>R22; ③x,y 之间不能建立线性回归方程. (1)C (2)①② [(1)因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相关.因 为 y 与 z 正相关,可设 z=b^y+a^,b^>0,则 z=b^y+a^=-0.1b^x+b^+a^,故 x 与 z 负相关. (2)在散点图中,点散布在从左上角到右下角的区域,因此 x,y 是负相关关 系,故①正确;由散点图知用 y=c1ec2x 拟合比用y^=b^x+a^拟合效果要好,则 R12> R22,故②正确;x,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.] [规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的 方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关 系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若 点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的 区域,则负相关. 2.利用相关系数判定,当|r|越趋近于 1,相关性越强. 当残差平方和越小,相关指数 R2 越大,相关性越强. [变式训练 1] 甲、乙、丙、丁四位同学各自对 A,B 两变量的线性相关性 做试验,并用回归分析方法分别求得相关系数 r 与残差平方和 m 如下表: 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现 A,B 两变量有更强的线性相关性( ) A.甲 C.丙 B.乙 D.丁 D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于 1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关 性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了 A,B 两变量 有更强的线性相关性.] 线性回归方程及应用 (2016·全国卷Ⅲ)如图 9-4-3 是我国 2008 年至 2014 年生活垃圾无害化 处理量(单位:亿吨)的折线图. 图 9-4-3 注:年份代码 1~7 分别对应年份 2008~2014. (1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以 说明; (2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾 无害化处理量. 7 7 参考数据: ∑ yi=9.32, ∑ tiyi=40.17, i=1 i=1 7 ∑ ?yi- y ?2=0.55, 7≈2.646. i=1 参考公式:相关系数 r= n ∑ ?ti- t ??yi- y ? i=1 n n ,回归方程y^=a^+b^t 中 ∑ ?ti- t ?2 ∑ ?yi- y ?2 i=1 i=1 n ∑ 斜率和截距的最小二乘估计公式分别为b^= i=1 ?ti- n t ??yi- y ?,a^=-y -b^ t . ∑ ?ti- t ?2 i=1 [解] (1)由折线图中的数据和附注中的参考数据得 7 t =4, ∑ (ti- t )2=28, i=1 7 ∑ ?yi- y ?2=0.55,2 分 i=1 7 7 7 ∑i=1 (ti- t )(yi- y )= ∑ tiyi- t i=1 ∑ yi=40.17-4×9.32=2.89, i=1 所以 r≈0.55×22.8×9 2.646≈0.99. 因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当大,从 而可以用线性回归模型拟合 y 与 t 的关系.5 分 (2)由 y =9.732≈1.331 及(1)得 7 ∑ b^= i=1 ?ti- t ??yi- 7 ∑ ?ti- t ?2 y ?=22.889≈0.103.8 分 i=1 a^= y -b^ t ≈1.331-0.103×4≈0.92. 所以 y 关于 t 的回归方程为y^=0.92+0.10t.10 分 将 2016 年对应的 t=9 代入回归方程得y^=0.92+0.10×9=1.82. 所以预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨.12 分 [规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出 散点图来确定两个变量之间是否具有相关关系,也可计算相关系数 r 进行判 断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.(1)正确运用计算b^,a^的公式和准确的计算,是求线性回归方程的关键.(2) 回归直线y^=b^x+a^必过样本点的中心( x , y ). [变式训练 2] (2014·全国卷Ⅱ)某地区 2007 年至 2013 年农村居民家庭人均 纯收入 y(单位:千元)的数据如下表: 年 份 2007 2008 2009 2010 2011 2012 2013 年份代号 t 1 2 3 4 5 6 7 人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 (1)求 y 关于 t 的线性回归方程; (2)利用(1)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均 纯收入的变化情况,并预测该地区 2015 年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: n ∑ b^=i=1 ∑?nti-?-tit-??-yti-?2 -y ?,a^=-y -b^-t . i=1 [解] (1)由所给数据计算得-t =17(1+2+3+4+5+6+7)=4, -y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, 7 ∑ (ti--t )2=9+4+1+0+1+4+9=28,3 分 i=1 7 ∑ (ti--t )(yi--y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1 i=1 +1×0.5+2×0.9+3×1.6=14, 7 ∑ b^=i=1 ∑?7ti-?-tit-??-yti-?2 -y ?=1248=0,5, i=1 a^=-y -b^-t =4.3-0.5×4=2.3, 所求回归方程为y^=0.5t+2.3.6 分 (2)由(1)知,b^=0.5>0,故 2007 年至 2013 年该地区农村居民家庭人均纯收 入逐年增加,平均每年增加 0.5 千元.9 分 将 2015 年的年份代号 t=9 代入(1)中的回归方程,得 y^=0.5×9+2.3=6.8, 故预测该地区 2015 年农村居民家庭人均纯收入为 6.8 千元.12 分 独立性检验 (2017·郑州调研)某高校共有学生 15 000 人,其中男生 10 500 人,女 生 4 500 人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方 法,收集 300 位学生每周平均体育运动时间的样本数据(单位:小时). (1)应收集多少位女生的样本数据? (2)根据这 300 个样本数据,得到学生每周平 均体育运动时间的频率分布直方图(如图 9-4-4 所 示),其中样本数据的分组区间为:[0,2],(2,4], (4,6],(6,8],(8,10],(10,12].估计该校学生每周 平均体育运动时间超过 4 小时的概率; 图 9-4-4 【导学号:31222369】 (3)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 小时,请完 成每周平均体育运动时间与性别列联表,并判断是否有 95%的把握认为“该校 学生的每周平均体育运动时间与性别有关”. P(K2≥k0) 0.10 0.05 0.010 0.005 k0 2.706 附:K2=?a+b??cn+?add-??ab+c?c2??b+d?. 3.841 6.635 7.879 [解] (1)利用分层抽样,300×145500000=90,所以应收集 90 位女生的样本数 据.4 分 (2)由频率分布直方图得 1-2×(0.025+0.100)=0.75.所以该校学生每周平均 体育运动时间超过 4 小时的概率的估计值为 0.75.8 分 (3)由(2)知,300 位学生中有 300×0.75=225 人的每周平均体育运动时间超 过 4 小时,75 人的每周平均体育运动时间不超过 4 小时.10 分 又因为样本数据中有 210 份是关于男生的,90 份是关于女生的,所以每周 平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表 男生 女生 总计 每周平均体育运动时间不超过 4 小时 45 30 75 每周平均体育运动时间超过 4 小时 165 60 225 总计 210 90 300 将 2×2 列联表中的数据代入公式计算,得 K2 观测值 k=3007×5×?452×256×0-21106×5×9030?2=12010≈4.762>3.841. 所以,有 95%的把握认为“该校学生的每周平均体育运动时间与性别有 关”.12 分 [规律方法] 1.在 2×2 列联表中,如果两个变量没有关系,则应满足 ad- bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量 之间关系越强. 2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独 立性检验的一般步骤: (1)根据样本数据制成 2×2 列联表; (2)根据公式 K2=?a+b??an+?adc-??bb+c?d2 ??c+d?计算 K2 的观测值 k; (3)比较 k 与临界值的大小关系,作统计推断. [变式训练 3] (2017·济南联考)某市地铁即将于 2017 年 6 月开始运营,为此 召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了 50 人,他 们的收入与态度如下; 月收入(单位:百元) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75] 赞成定价者人数 1 2 3 5 3 4 认为价格偏高者人数 4 8 12 5 2 1 (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞 成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留 2 位小 数); (2)由以上统计数据填下面 2×2 列联表,分析是否有 99%的把握认为“月收 入以 55 百元为分界点对地铁定价的态度有差异”. 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格 偏高者 赞成定价者 总计 附:K2=?a+b??cn+?add-??ab+c?c2??a+d?. P(K2≥k0) k0 0.05 3.841 0.01 6.635 [解] (1)“赞成定价者”的月平均收入为 x1=20×1+30×2+ 1+402× +33+ +550+×35++460×3+70×4 ≈50.56. “认为价格偏高者”的月平均收入为 x2=20×4+30×8+ 4+408× +1122+ +550+×25++160×2+70×1 =38.75, ∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x1-x2= 50.56-38.75=11.81(百元).5 分 (2)根据条件可得 2×2 列联表如下: 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格 3 偏高者 29 32 赞成定价者 7 11 18 总计 10 40 50 K2=501×0×?3×401×1-187××3229?2≈6.27<6.635, ∴没有 99%的把握认为“月收入以 55 百元为分界点对地铁定价的态度有差 异”.12 分 [思想与方法] 1.回归分析是处理变量相关关系的一种 数学方法.主要解决:(1)确定特定量之间是 否有相关关系,如果有就找出它们之间贴近的 数学表达式;(2)根据一组观察值,预测变量 的取值及判断变量取值的变化趋势;(3)求出 线性回归方程. 2.根据 K2 的值可以判断两个分类变量有 关的可信程度. [易错与防范] 1.回归分析是对具有相关关系的两个变量 进行统计分析的方法,只有在散点图大致呈线 性时,求出的线性回归方程才有实际意义,否 则,求出的线性回归方程毫无意义.根据回归 方程进行预报,仅是一个预报值,而不是真实 发生的值. 2.独立性检验中统计量 K2 的观测值 k 的计 算公式很复杂,在解题中易混淆一些数据的意 义,代入公式时出错,而导致整个计算结果出 错. 编后语 ? 有的同学听课时容易走神,常常听着听着心思就不知道溜到哪里去了;有的学生,虽然留心听讲,却常常“跟不上步伐”,思维落后在老师的讲解后。这两种情况都 不能达到理想的听课效果。听课最重要的是紧跟老师的思路,否则,教师讲得再好,新知识也无法接受。如何跟上老师饭思路呢?以下的听课方法值得同学们学习: ? 一、“超前思考,比较听课” ? 什么叫“超前思考,比较听课”?简单地说,就是同学们在上课的时候不仅要跟着老师的思路走,还要力争走在老师思路的前面,用自己的思路和老师的思路进行对 比,从而发现不同之处,优化思维。 ? 比如在讲《林冲棒打洪教头》一文,老师会提出一些问题,如林冲当时为什么要戴着枷锁?林冲、洪教头是什么关系?林冲为什么要棒打洪教头??????? ? 老师没提了一个问题,同学们就应当立即主动地去思考,积极地寻找答案,然后和老师的解答进行比较。通过超前思考,可以把注意力集中在对这些“难点”的理解 上,保证“好钢用在刀刃上”,从而避免了没有重点的泛泛而听。通过将自己的思考跟老师的讲解做比较,还可以发现自己对新知识理解的不妥之处,及时消除知识 的“隐患”。 ? 二、同步听课法 ? 有些同学在听课的过程中常碰到这样的问题,比如老师讲到一道很难的题目时,同学们听课的思路就“卡壳“了,无法再跟上老师的思路。这时候该怎么办呢? ? 如果“卡壳”的内容是老师讲的某一句话或某一个具体问题,同学们应马上举手提问,争取让老师解释得在透彻些、明白些。 ? 如果“卡壳”的内容是公式、定理、定律,而接下去就要用它去解决问题,这种情况下大家应当先承认老师给出的结论(公式或定律)并非继续听下去,先把问题记 下来,到课后再慢慢弄懂它。 ? 尖子生好方法:听课时应该始终跟着老师的节奏,要善于抓住老师讲解中的关键词,构建自己的知识结构。利用老师讲课的间隙,猜想老师还会讲什么,会怎样讲, 怎样讲会更好,如果让我来讲,我会怎样讲。这种方法适合于听课容易分心的同学。 2019/7/12 精选最新中小学教学课件 40 thank you! 2019/7/12 精选最新中小学教学课件 41
+申请认证

文档贡献者

27082 1363609 3.9
文档数 浏览总量 总评分

喜欢此文档的还喜欢