前辅文
第1章 导言
1.1 属性响应数据
1.1.1 响应变量和解释变量的区别
1.1.2 名义量表和有序量表的区别
1.1.3 本书的结构
1.2 属性数据的概率分布
1.2.1 二项分布
1.2.2 多项分布
1.3 比例的统计推断
1.3.1 似然函数和极大似然估计
1.3.2 二项比例的显著性检验
1.3.3 案例: 关于堕胎合法化的调查结果
1.3.4 二项比例的置信区间
1.4 关于离散数据的更多统计推断
1.4.1 Wald, 似然比和得分推断
1.4.2 二项参数的Wald, 得分和似然比推断
1.4.3 小样本二项推断
1.4.4 小样本离散数据推断的保守性*
1.4.5 基于中间P-值的推断*
1.4.6 小结
习题
第2章 列联表
2.1 列联表的概率结构
2.1.1 联合概率, 边缘概率以及条件概率
2.1.2 案例: 关于来世
2.1.3 诊断检验的敏感度和特异度
2.1.4 独立性
2.1.5 二项抽样和多项抽样
2.2 2×2表比例的比较
2.2.1 比例差
2.2.2 案例: 阿司匹林与心脏病
2.2.3 相对风险
2.3 优势比
2.3.1 优势比的性质
2.3.2 案例: 阿司匹林和心脏病案例中的优势比
2.3.3 优势比和对数优势比的推断
2.3.4 优势比和相对风险的联系
2.3.5 案例对照研究中优势比的应用
2.3.6 观测研究的种类
2.4 独立性的卡方检验
2.4.1 皮尔逊统计量和卡方分布
2.4.2 似然比统计量
2.4.3 独立性检验
2.4.4 案例: 政党认同中的性别差异
2.4.5 列联表的单元残差
2.4.6 卡方统计量的分解
2.4.7 卡方检验的小结
2.5 有序数据的独立性检验
2.5.1 线性趋势与独立性
2.5.2 案例: 饮酒与婴儿畸形
2.5.3 有序检验的特殊功效
2.5.4 得分的选择
2.5.5I× 2 表和2× J 表趋势的检验
2.5.6 名义变量--- 有序变量列联表
2.6 小样本的精确推断
2.6.12× 2表的费希尔精确检验
2.6.2 案例: 费希尔的品茶者试验
2.6.3 P值和真实P-值的保守性(第I 类错误)
2.6.4 优势比的小样本置信区间*
2.7 三向列联表的关联性
2.7.1 部分表
2.7.2 条件关联与边缘关联: 死刑判决的案例
2.7.3 辛普森悖论
2.7.4 条件优势比和边缘优势比
2.7.5 条件独立和边缘独立
2.7.6 齐次关联性
习题
第3章 广义线性模型
3.1 广义线性模型的构成部分
3.1.1 随机部分
3.1.2 系统部分
3.1.3 联系函数
3.1.4 正态GLM
3.2 二分数据的广义线性模型
3.2.1 线性概率模型
3.2.2 案例: 打鼾与心脏病
3.2.3 logistic 回归模型
3.2.4 probit 回归模型
3.2.5 二分回归和累积分布函数*
3.3 计数数据的广义线性模型
3.3.1 泊松回归
3.3.2 案例: 母鲎及其追随者
3.3.3 超散布性: 超出预期的变异性
3.3.4 负二项分布*
3.3.5 比率数据的计数回归*
3.3.6 案例: 英国的火车事故*
3.4 统计推断和模型检验
3.4.1 关于模型参数的推断
3.4.2 案例: 再访打鼾与心脏病的案例
3.4.3 偏差
3.4.4 基于偏差的模型比较
3.4.5 比较观测和模型拟合的残差
3.5 广义线性模型的拟合
3.5.1 GLM 拟合的Newton-Raphson 算法
3.5.2 依赖于似然函数的Wald, 似然比以及得分推断
3.5.3 GLM 的优势
习题
第4章 logistic 回归
4.1 logistic 回归模型的解释
4.1.1 线性近似解释
4.1.2 母鲎: 观察并平滑二分结果
4.1.3 鲎: logistic 回归拟合的解释
4.1.4 优势比解释
4.1.5 回顾性研究中的logistic 回归
4.1.6X 服从正态分布意味着Y 适合logistic 回归
4.2 logistic 回归的推断
4.2.1 分组或未分组的二分数据
4.2.2 效应的置信区间
4.2.3 显著性检验
4.2.4 概率的置信区间
4.2.5 为什么使用模型估计概率?
4.2.6 概率的置信区间: 细节*
4.2.7 模型参数估计的标准误*
4.3 属性预测变量的logistic 回归
4.3.1 用指示变量表示属性预测变量
4.3.2 案例: AZT 和AIDS
4.3.3 因子的ANOVA 型模型表示
4.3.42× 2× K 列联表的Cochran-Mantel-Haenszel 检验
4.3.5 优势比齐次性检验*
4.4 多元logistic 回归
4.4.1 案例: 以颜色和宽度作为预测变量的母鲎案例
4.4.2 通过模型对比确认某项是否必要
4.4.3 有序预测变量的定量化处理
4.4.4 容许交互效应
4.5 logistic 回归效应的概括
4.5.1 基于概率的解释
4.5.2 标准化解释
习题
第5章 logistic 回归模型的构建及应用
5.1 模型选择策略
5.1.1 运用多少个预测变量?
5.1.2 案例: 再访鲎的数据
5.1.3 逐步变量选择算法
5.1.4 案例:鲎数据的向后剔除
5.1.5 AIC, 模型选择及``正确" 模型
5.1.6 概括预测功效: 分类表*
5.1.7 概括预测功效:ROC 曲线*
5.1.8 概括预测功效: 相关*
5.2 模型检验
5.2.1 模型比较的似然比检验
5.2.2 拟合优度与偏差
5.2.3 检验拟合: 分组数据, 未分组数据及连续预测变量
5.2.4 logit 模型的残差
5.2.5 案例: 佛罗里达大学的研究生入学
5.2.6 logistic 回归的影响诊断
5.2.7 案例: 心脏病与血压的关系
5.3 稀疏数据效应
5.3.1 无穷效应估计:定量预测变量
5.3.2 无穷效应估计:属性预测变量
5.3.3 案例:带有稀疏数据的临床试验结果
5.3.4 小样本对X^2 和G^2 检验的影响
5.4 条件logistic 回归与精确推断
5.4.1 条件极大似然推断
5.4.2 列联表的小样本检验
5.4.3 案例:晋升能力
5.4.4 logistic 参数和优势比的小样本置信区间
5.4.5 小样本精确方法的局限性*
5.5 logistic回归的样本量与功效
5.5.1 比较两个比例所需的样本量
5.5.2 logistic回归中的样本量*
5.5.3 多重logistic 回归中的样本量*
习题
第6章 多类别logit 模型
6.1 名义响应变量的logit 模型
6.1.1 基线--类别 logit
6.1.2 案例: 钝吻鳄食物选择
6.1.3 估计响应概率
6.1.4 案例: 是否相信来世
6.1.5 离散选择模型
6.2 有序响应变量的累积logit 模型
6.2.1 具有比例优势特性的累积logit 模型
6.2.2 案例: 政治意识形态与隶属党派的关系
6.2.3 模型参数的推断
6.2.4 模型拟合的检验
6.2.5 案例: 对心理健康建模
6.2.6 比较累积概率的解释
6.2.7 潜变量诱导*
6.2.8 响应类别选择的不变性
6.3 成对类别有序logit
6.3.1 相邻类别logit
6.3.2 案例: 再访政治意识形态
6.3.3 相继比logit
6.3.4 案例: 发育毒性研究
6.3.5 聚簇数据中的超散布性
6.4 条件独立性检验
6.4.1 案例: 工作满意度和收入
6.4.2 推广的Cochran-Mantel-Haenszel 检验*
6.4.3 探测名义--有序条件关联
6.4.4 探测名义--名义条件关联
习题
第7章 列联表的对数线性模型
7.1 双向表和三向表的对数线性模型
7.1.1 双向表的独立性对数线性模型
7.1.2 独立性模型中的参数解释
7.1.3 双向表的饱和模型
7.1.4 三向表的对数线性模型
7.1.5 两因子参数描述条件关联
7.1.6 案例: 酒?香烟?大麻的使用
7.2 对数线性模型的推断
7.2.1 卡方拟合优度检验
7.2.2 对数线性单元残差
7.2.3 条件关联的检验
7.2.4 条件优势比的置信区间
7.2.5 高维对数线性模型
7.2.6 案例: 汽车事故与安全带
7.2.7 三因子交互作用
7.2.8 大样本和统计与实践显著性
7.3 对数线性模型与logistic 模型的联系
7.3.1 利用logistic 模型解释对数线性模型
7.3.2 案例: 再访汽车事故数据
7.3.3 对数线性模型和logistic 模型间的对应
7.3.4 模型选择策略
7.4 独立图和衰退
7.4.1 独立图
7.4.2 三向表的衰退条件
7.4.3 衰退与logistic 模型
7.4.4 多向表的衰退与独立图
7.4.5 案例: 学生成瘾物质使用的模型构建
7.4.6 图模型
7.5 对有序关联建模
7.5.1 线性-线性关联模型
7.5.2 案例: 性选择
7.5.3 有序的独立性检验
习题
第8章 配对数据的模型
8.1 比较关联样本的比例
8.1.1 比较边缘比例的McNemar 检验
8.1.2 比例的差的估计
8.2 配对的logistic 回归
8.2.1 针对边缘比例的边缘模型
8.2.2 特定个体表与平均总体表
8.2.3 配对的条件logistic 回归
8.2.4 匹配案例对照研究的logistic 回归*
8.2.5 McNemar 与Cochran-Mantel-Haenszel 检验的联系*
8.3 比较方形列联表的边缘分布
8.3.1 边缘齐性与名义分类
8.3.2 案例: 咖啡品牌市场份额
8.3.3 边缘齐性与有序类别
8.3.4 案例: 为了环保, 再利用或少开车?
8.4 方形表的对称性模型与拟对称性模型*
8.4.1 以logistic 模型表示的对称性
8.4.2 拟对称性
8.4.3 案例: 再访咖啡品牌市场份额
8.4.4 利用对称性和拟对称性来检验边缘齐性
8.4.5 有序拟对称性模型
8.4.6 案例: 再利用或少开车?
8.4.7 利用对称性模型与有序拟对称性模型来检验边缘齐性
8.5 分析评级者的一致性*
8.5.1 独立性模型的单元残差
8.5.2 拟独立性模型
8.5.3 概括一致性的优势比
8.5.4 拟对称性和一致性建模
8.5.5 一致性的kappa 度量
8.6 成对偏好的BRADLEY-TERRY 模型
8.6.1 Bradley-Terry 模型
8.6.2 案例: 对男子网球选手排序
习题
第9章 关联, 聚簇响应的建模
9.1 边缘模型及条件模型
9.1.1 聚簇二分响应的边缘模型
9.1.2 案例: 抑郁症治疗的纵向研究
9.1.3 重复响应的条件模型
9.2 边缘模型: 广义估计方程(GEE) 方法
9.2.1 拟似然方法
9.2.2 广义估计方程方法: 基本思想
9.2.3 二分数据的GEE: 抑郁症的研究
9.2.4 案例: 畸胎学中的超散布性
9.2.5 与ML 相比, GEE 的局限性
9.3 GEE 的扩展: 多项响应
9.3.1 聚簇多项响应的边缘模型
9.3.2 案例: 关于失眠的研究
9.3.3 利用GEE 对关联性进行建模的另一种方法
9.3.4 缺失数据的处理
9.4 给定既往的转移模型
9.4.1 含有解释变量的转移模型
9.4.2 案例: 呼吸疾病和母亲吸烟
9.4.3 控制初始响应的比较
9.4.4 和对数线性模型有关的转移模型
习题
第10章 随机效应: 广义线性混合模型
10.1 聚簇属性数据的随机效应建模
10.1.1 广义线性混合模型
10.1.2 二分配对的logistic GLMM
10.1.3 案例: 再访对环保的贡献问题
10.1.4 条件模型与边缘模型的不同效应
10.2 二分数据的随机效应模型的案例
10.2.1 二项分布概率的小区域估计
10.2.2 案例: 估计篮球罚球成功率
10.2.3 案例: 再访畸形研究超离散化问题
10.2.4 案例: 相似调查问题的重复响应
10.2.5 项目反应模型: Rasch 模型
10.2.6 案例: 再访抑郁症研究
10.2.7 边缘模型和条件模型的选择
10.2.8 条件模型: 随机效应与条件ML
10.3 向多项响应或多个随机效应项的推广
10.3.1 案例: 再访失眠研究
10.3.2 双随机效应与关联异质性
10.4 多水平(层次) 模型
10.4.1 案例: 关于学生进级的两水平模型
10.4.2 案例: 留级
10.5 GLMM 的模型拟合与推断*
10.5.1 拟合GLMM
10.5.2 模型参数的推断
习题
第11章 属性数据分析史漫谈
11.1 PEARSON-YULE 关联性的争议
11.2 R. A. FISHER 的贡献
11.3 logistic 回归
11.4 多向列联表和对数线性模型
11.5 最后的一点评论
附录A: 针对属性数据分析的软件
附录B: 卡方分布表
参考文献
案例索引
名词索引
部分奇数号习题的简要答案