本书主要介绍了概率基础、统计的基本概念、描述性统计、估计、假设检验、回归与分类等内容,同时介绍了决策树、神经网络和随机森林等组合方法以及如何用R、SPSS、SAS等软件来实现相应的计算目标。
本书着重直观讨论,尽量少用公式,避免数学推导,强调统计学的基本内容及应用,使读者能够完整、准确地理解统计学的概念,学会利用统计软件进行数据分析。
本书主要是为非统计学专业的学生和读者编写,读者不需要任何概率统计基础知识。
第一章 引言 §1.1 什么是科学方法? §1.2 统计是什么? §1.3 学习统计需要的基础知识和技能 §1.4 习题 第二章 变量和数据 §2.1 数据和变量概述 §2.2 概率和随机变量 §2.3 数据的收集 §2.4 个体、总体、样本和抽样 §2.5 附录 §2.6 习题 第三章 描述统计学方法 §3.1 制表方法 §3.2 图描述方法 §3.3 用少量汇总数字的描述方法 §3.4 软件的使用 §3.5 习题 第四章 变量的分布 §4.1 和定量变量有关的事件 §4.2 变量的分布 §4.3 离散型变量的分布 4.3.1 二项分布 4.3.2 多项分布 4.3.3 超几何分布 4.3.4 Poisson分布 §4.4 连续型变量的分布 4.4.1 正态分布 4.4.2 总体分位数和尾概率 4.4.3 X2分布 4.4.4 t分布 4.4.5 F分布 4.4.6 均匀分布 §4.5 用小概率事件进行判断 §4.6 抽样分布和中心极限定理 4.6.1 样本函数的分布 4.6.2 样本均值的性质和中心极限定理 §4.7 变换非正态数据,使其更加接近于正态假定 §4.8 统计量的一些常用函数 §4.9 软件的使用 §4.10 习题 第五章 简单统计推断:对总体参数的估计 §5.1 点估计 §5.2 区间估计 5.2.1 正态分布总体均值μ的区间估计 5.2.2 两个独立正态分布总体均值差μ1-μ2的区间估计 5.2.3 配对正态分布总体均值差μD=μ1-μ2的区间估计 5.2.4 总体比例(Bernoulli试验成功概率)p的区间估计 5.2.5 总体比例(Bernoulli试验成功概率)之差p1-p2的区间估计 §5.3 软件的使用 §5.4 习题 第六章 简单统计推断:总体参数的假设检验 §6.1 假设检验的过程和逻辑 §6.2 正态总体均值的检验 6.2.1 对一个正态总体均值μ的t检验 6.2.2 对两个正态总体均值之差μ1-μ2的t检验 6.2.3 配对正态分布总体均值差μD=μ1-μ2的t检验 §6.3 总体比例(Bernoulli试验成功概率)的检验 6.3.1 一个总体比例p的检验 6.3.2 两个总体比例之差p1-p2的检验 §6.4 关于中位数的非参数检验 6.4.1 非参数检验简介 6.4.2 单样本的关于总体中位数(或总体α分位数)的符号检验 6.4.3 单样本的关于对称总体中位数(总体均值)的Wilcoxon符号秩检验 6.4.4 两独立样本的比较总体中位数的Wilcoxon秩和检验 §6.5 软件的使用 §6.6 习题 第七章 变量之间的关系 §7.1 定性变量之间的相关 7.1.1 列联表 7.1.2 两个定性变量相关性的χ2检验 §7.2 定量变量之间的相关 7.2.1 定量变量之间关系的描述 7.2.2 定量变量之间相关的概念 7.2.3 Pearson线性相关系数及相关的检验 7.2.4 Kendallτ相关系数 7.2.5 Spearman秩相关系数 §7.3 软件的使用 §7.4 习题 第八章 经典回归和分类 §8.1 回归和分类概述 8.1.1 “黑匣子”说法 8.1.2 试图破解“黑匣子”的实践 8.1.3 回归和分类的区别 §8.2 线性回归模型 8.2.1 因变量和自变量均为数量型变量的线性回归模型 8.2.2 因变量是数量变量,而自变量包含分类变量的线性回归模型 §8.3 Logistic回归 §8.4 判别分析 §8.5 软件的使用 §8.6 习题 第九章 现代回归和分类:数据挖掘所用的方法 §9.1 决策树:分类树和回归树 9.1.1 分类树 9.1.2 回归树 §9.2 组合方法:adaboost、bagging和随机森林 9.2.1 为什么组合? 9.2.2 Adaboost 9.2.3 Bagging 9.2.4 随机森林 §9.3 最近邻方法 §9.4 人工神经网络 §9.5 习题