图书介绍

数据科学手册【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

数据科学手册
  • (美)菲尔德·卡迪(Field Cady)著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111619116
  • 出版时间:2019
  • 标注页数:313页
  • 文件大小:96MB
  • 文件页数:331页
  • 主题词:数据管理-手册

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据科学手册PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 引言:成为独角兽1

1.1 数据科学家不仅仅是高薪统计人员2

1.2 本书的内容是怎样组织的2

1.3 如何使用本书3

1.4 无论如何,为什么一切都在PythonTM中3

1.5 示例代码及数据集3

1.6 最后的话4

第Ⅰ部分 必须掌握的基础素材6

第2章 数据科学路线图6

2.1 解决问题7

2.2 理解数据:基本问题8

2.3 理解数据:数据整理9

2.4 理解数据:探索性分析9

2.5 提取特征10

2.6 模型10

2.7 呈现结果11

2.8 部署代码11

2.9 迭代12

2.10 术语12

第3章 编程语言13

3.1 为什么使用编程语言,有无其他选项13

3.2 数据科学编程语言综述14

3.2.1 Python语言14

3.2.2 R语言14

3.2.3 MATLAB?和Octave14

3.2.4 SAS?15

3.2.5 Scala?15

3.3 Python语言速成班15

3.3.1 版本注解15

3.3.2 “hello world”脚本16

3.3.3 更为复杂的脚本17

3.3.4 数据类型19

3.4 字符串19

3.4.1 注释与文档注释21

3.4.2 复杂数据类型21

3.4.3 列表22

3.4.4 字符串与列表22

3.4.5 元组23

3.4.6 字典24

3.4.7 集合24

3.5 定义函数24

3.5.1 循环与控制结构25

3.5.2 一些关键函数26

3.5.3 异常处理27

3.5.4 导入库27

3.5.5 类及对象27

3.5.6 可哈希与不可哈希类型28

3.6 Python语言技术库29

3.6.1 数据帧29

3.6.2 序列30

3.6.3 连接与分组32

3.7 其他Python语言资源33

3.8 延伸阅读33

3.9 术语34

第4章 数据预处理:字符串操作、正则表达式和数据清理36

4.1 世界上最糟糕的数据集36

4.2 如何识别问题37

4.3 数据内容问题37

4.3.1 重复条目37

4.3.2 单实体的多个条目37

4.3.3 丢失缺失值38

4.3.4 NULL38

4.3.5 巨大异常值38

4.3.6 过期数据39

4.3.7 人造数据39

4.3.8 非正规空格39

4.4 格式化问题39

4.4.1 不同行列之间的不规则格式化39

4.4.2 额外的空白39

4.4.3 不规则大小写40

4.4.4 不一致分隔符40

4.4.5 不规则NULL格式40

4.4.6 非法字符40

4.4.7 奇怪或不兼容的时间类型40

4.4.8 操作系统不兼容41

4.4.9 错误的软件版本41

4.5 格式化脚本实例42

4.6 正则表达式43

4.6.1 正则表达式语法43

4.7 数据科学战壕中的生活46

4.8 术语47

第5章 可视化与简单度量48

5.1 关于Python语言可视化工具的说明48

5.2 示例代码49

5.3 饼图49

5.4 柱状图51

5.5 直方图53

5.6 均值、标准差、中位数和分位数55

5.7 箱式图56

5.8 散点图57

5.9 对数轴线散点图59

5.10 散点阵列图61

5.11 热力图62

5.12 相关性63

5.13 Anscombe四重奏与数字极限64

5.14 时间序列65

5.15 延伸阅读68

5.16 术语69

第6章 机器学习概要70

6.1 历史背景71

6.2 监督与无监督学习71

6.3 训练数据、测试数据和过拟合72

6.4 延伸阅读72

6.5 术语73

第7章 插曲:特征提取思路74

7.1 标准特征74

7.2 有关分组的特征75

7.3 预览更复杂的特征75

7.4 定义待预测功能75

第8章 机器学习分类77

8.1 什么是分类器,用它可以做什么77

8.2 一些实用的关注点78

8.3 二分类与多分类78

8.4 实例脚本79

8.5 特定分类器80

8.5.1 决策树80

8.5.2 随机森林82

8.5.3 集成分类器83

8.5.4 支持向量机83

8.5.5 逻辑回归85

8.5.6 回归87

8.5.7 朴素贝叶斯分类器88

8.5.8 神经网络89

8.6 评价分类器90

8.6.1 混淆矩阵91

8.6.2 ROC曲线91

8.6.3 ROC曲线之下的面积93

8.7 选择分类阈值93

8.7.1 其他性能测量94

8.7.2 升力曲线94

8.8 延伸阅读94

8.9 术语95

第9章 技术交流与文档化96

9.1 指导原则96

9.1.1 了解观众96

9.1.2 说明其重要性97

9.1.3 使其具体化97

9.1.4 一张图片胜过千言万语98

9.1.5 不要对自己的技术知识感到骄傲98

9.1.6 使其看起来美观98

9.2 幻灯片99

9.2.1 C.R.A.P设计原则99

9.2.2 一些提示和经验法则101

9.3 书面报告102

9.4 演示:有用的技巧103

9.5 代码文档104

9.6 延伸阅读105

9.7 术语105

第Ⅱ部分 仍需要知道的事情108

第10章 无监督学习:聚类与降维108

10.1 维数灾难108

10.2 实例:“特征脸”降维110

10.3 主成分分析与因子分析112

10.4 Skree图与维度的理解113

10.5 因子分析114

10.6 PCA的局限性114

10.7 聚类115

10.7.1 聚类簇的实际评估115

10.7.2 k均值聚类116

10.7.3 高斯混合模型117

10.7.4 合成聚类118

10.7.5 聚类质量评价118

10.7.6 轮廓分数118

10.7.7 兰德指数与调整兰德指数120

10.7.8 互信息120

10.8 延伸阅读121

10.9 术语121

第11章 回归122

11.1 实例:预测糖尿病进展122

11.2 最小二乘法125

11.3 非线性曲线拟合126

11.4 拟合度:R2和相关度127

11.5 残差相关性128

11.6 线性回归128

11.7 LASSO回归与特征选择130

11.8 延伸阅读131

11.9 术语131

第12章 数据编码与文件格式132

12.1 典型的文件格式类别132

12.1.1 文本文件132

12.1.2 密集数组133

12.1.3 程序相关的数据格式133

12.1.4 数据压缩和数据存档133

12.2 CSV文件133

12.3 JSON文件134

12.4 XML文件136

12.5 HTML文件138

12.6 Tar文件139

12.7 GZip文件140

12.8 Zip文件140

12.9 图像文件:栅格化、矢量化及压缩141

12.10 归根到底都是字节142

12.11 整型数142

12.12 浮点数143

12.13 文本数据144

12.14 延伸阅读146

12.15 术语146

第13章 大数据147

13.1 什么是大数据147

13.2 Hadoop:文件系统与处理器148

13.3 使用HDFS149

13.4 PySpark脚本实例150

13.5 Spark概述151

13.6 Spark操作152

13.7 运行PySpark的两种方式154

13.8 Spark配置154

13.9 底层的细节155

13.10 Spark提示与技巧156

13.11 MapReduce范例157

13.12 性能考量158

13.13 延伸阅读159

13.14 术语160

第14章 数据库161

14.1 关系数据库及MySQL?162

14.1.1 基本查询和分组162

14.1.2 连接164

14.1.3 嵌套查询165

14.1.4 运行MySQL并管理数据库166

14.2 键-值存储167

14.3 宽列存储167

14.4 文档存储168

14.4.1 MongoDB?168

14.5 延伸阅读170

14.6 术语170

第15章 软件工程最佳实践172

15.1 编码风格172

15.2 数据科学家的版本控制和Git174

15.3 代码测试176

15.3.1 单元测试176

15.3.2 集成测试178

15.4 测试驱动的开发178

15.5 敏捷方法179

15.6 延伸阅读179

15.7 术语179

第16章 自然语言处理181

16.1 是否真正需要NLP181

16.2 两种流派的对垒:语言学与统计学181

16.3 实例:股市文章的论点分析182

16.4 软件和数据库184

16.5 词语切分184

16.6 核心概念:词袋184

16.7 单词加权:TF-IDF185

16.8 n-gram186

16.9 停用词186

16.10 词形还原与词干提取187

16.11 同义词187

16.12 词性标注188

16.13 常见问题188

16.13.1 搜索188

16.13.2 情感分析189

16.13.3 实体识别与主题建模189

16.14 高级NLP:语法树、知识以及理解190

16.15 延伸阅读191

16.16 术语191

第17章 时间序列分析192

17.1 实例:预测维基百科页面的访问量192

17.2 典型的工作流196

17.3 时间序列与时间戳事件196

17.4 插值的重采样196

17.5 信号平滑199

17.6 对数变换及其他变换199

17.7 趋势和周期性199

17.8 窗口化200

17.9 简单特征的头脑风暴201

17.10 更好的特征:向量形式的时间序列201

17.11 傅里叶分析:有时候非常有效202

17.12 上下文中的时间序列:全套特征204

17.13 延伸阅读205

17.14 术语205

第18章 概率206

18.1 抛硬币:伯努利随机变量206

18.2 掷飞镖:均匀随机变量207

18.3 均匀分布和伪随机数208

18.4 非离散型、非连续型随机变量209

18.5 记号、期望和标准偏差210

18.6 独立概率、边际概率和条件概率211

18.7 重尾的理解212

18.8 二项分布214

18.9 泊松分布214

18.10 正态分布215

18.11 多元高斯分布216

18.12 指数分布217

18.13 对数正态分布218

18.14 熵218

18.15 延伸阅读220

18.16 术语220

第19章 统计学222

19.1 统计学透视222

19.2 贝叶斯与频率论:使用上的权衡及不同学派223

19.3 假设检验:关键思想和范例223

19.4 多重假设检验225

19.5 参数估计226

19.6 假设检验:t检验227

19.7 置信区间229

19.8 贝叶斯统计学230

19.9 朴素贝叶斯统计学231

19.10 贝叶斯网络232

19.11 先验概率选择:最大熵或领域知识232

19.12 延伸阅读233

19.13 术语233

第20章 编程语言概念235

20.1 编程范式235

20.1.1 命令式235

20.1.2 函数式236

20.1.3 面向对象239

20.2 编译与解释242

20.3 类型系统244

20.3.1 静态类型与动态类型244

20.3.2 强类型与弱类型244

20.4 延伸阅读245

20.5 术语245

第21章 性能和计算机内存247

21.1 示例脚本247

21.2 算法性能与Big-O符号249

21.3 一些经典问题:排序列表与二分查找250

21.4 摊销性能与平均性能253

21.5 两个原则:减小开销和管理内存255

21.6 性能技巧:在适用的情况下使用数字化库256

21.7 性能技巧:删除不需要的大型结构257

21.8 性能技巧:尽可能使用内置函数257

21.9 性能技巧:避免不必要的函数调用258

21.10 性能技巧:避免创建大型新对象258

21.11 延伸阅读259

21.12 术语259

第Ⅲ部分 专业或高级主题262

第22章 计算机内存和数据结构262

22.1 虚拟内存、堆栈和堆结构262

22.2 C程序实例262

22.3 内存数据类型和数组263

22.4 结构264

22.5 指针、堆栈和堆265

22.6 关键数据结构269

22.6.1 字符串269

22.6.2 可调数组269

22.6.3 哈希表271

22.6.4 链表272

22.6.5 二叉搜索树273

22.7 延伸阅读274

22.8 术语274

第23章 最大似然估计和最优化276

23.1 最大似然估计276

23.2 一个简单实例:直线拟合277

23.3 另一个例子:逻辑回归278

23.4 最优化279

23.5 梯度下降和凸优化280

23.6 凸优化283

23.7 随机梯度下降284

23.8 延伸阅读284

23.9 术语284

第24章 高级分类器286

24.1 函数库注解286

24.2 基础深度学习287

24.3 卷积神经网络289

24.4 不同类型的层以及张量到底是什么290

24.5 实例:MNIST手写数据集291

24.6 递归神经网络293

24.7 贝叶斯网络294

24.8 训练和预测295

24.9 马尔可夫链蒙特卡洛理论296

24.10 PyMC实例297

24.11 延伸阅读299

24.12 术语299

第25章 随机建模300

25.1 马尔可夫链300

25.2 两类马尔可夫链、两类问题302

25.3 马尔可夫链蒙特卡洛303

25.4 隐马尔可夫模型和Viterbi算法304

25.5 维特比算法305

25.6 随机游走307

25.7 布朗运动308

25.8 ARIMA模型308

25.9 连续时间马尔可夫过程309

25.10 泊松过程310

25.11 延伸阅读310

25.12 术语311

告别语:数据科学家的未来312

热门推荐