智汇书屋 -敏捷数据科学
本书资料更新时间:2025-01-09 19:46:16

敏捷数据科学 下载 pdf 电子版 epub 免费 txt 2025

敏捷数据科学精美图片
》敏捷数据科学电子书籍版权问题 请点击这里查看《

敏捷数据科学书籍详细信息

  • ISBN:9787121236198
  • 作者:暂无作者
  • 出版社:暂无出版社
  • 出版时间:2014-7
  • 页数:184
  • 价格:49.00元
  • 纸张:暂无纸张
  • 装帧:暂无装帧
  • 开本:暂无开本
  • 语言:未知
  • 丛书:暂无丛书
  • TAG:暂无
  • 豆瓣评分:暂无豆瓣评分
  • 豆瓣短评:点击查看
  • 豆瓣讨论:点击查看
  • 豆瓣目录:点击查看
  • 读书笔记:点击查看
  • 原文摘录:点击查看
  • 更新时间:2025-01-09 19:46:16

内容简介:

《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig 及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。

《敏捷数据科学:用Hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。


书籍目录:

第1 部分 起步 ............................................................... 1

第1 章 理论 .................................................................. 3

敏捷大数据 ............................................................................................................3

Big Words 定义 ......................................................................................................4

敏捷大数据团队 .....................................................................................................5

认识机遇和问题 ..............................................................................................6

敏捷大数据流程 ................................................................................................... 11

代码检查和结对编程 ...........................................................................................12

敏捷的场所:开发的效率 ....................................................................................13

协作空间 .......................................................................................................14

私人空间 .......................................................................................................14

个人空间 .......................................................................................................14

用大幅打印件明确表达想法 ................................................................................15

第2 章 数据 ............................................................... 17

电子邮件 ..............................................................................................................17

处理原始数据 ......................................................................................................18

原始的电子邮件 ............................................................................................18

结构化与半结构化数据 .................................................................................18

SQL ......................................................................................................................20

NoSQL .................................................................................................................24

序列化 ...........................................................................................................24

从演变的模式中抽取和展示特征 ..................................................................25

数据流水线 ...................................................................................................26

数据透视 ..............................................................................................................27

社交网络 .......................................................................................................28

时间序列 .......................................................................................................30

自然语言 .......................................................................................................31

概率 ...............................................................................................................33

小结 .....................................................................................................................35

第3 章 敏捷开发工具 ................................................... 37

可扩展性= 简洁...................................................................................................37

敏捷大数据处理 ...................................................................................................38

设置运行Python 的虚拟环境 ...............................................................................39

使用Avro 对事件进行序列化 ..............................................................................40

在Python 中使用Avro ..................................................................................40

收集数据 ..............................................................................................................42

使用Pig 处理数据................................................................................................44

安装Pig .........................................................................................................45

使用MongoDB 发布数据 ....................................................................................49

安装MongoDB ..............................................................................................49

安装MongoDB 的Java 驱动程序 .................................................................50

安装mongo-hadoop .......................................................................................50

用Pig 向MongoDB 推送数据 .......................................................................50

使用ElasticSearch 搜索数据 ................................................................................52

安装 ...............................................................................................................52

使用Wonderdog 整合ElasticSearch 和Pig ...................................................53

对工作流程的反思 ...............................................................................................55

轻量级的Web 应用 ..............................................................................................56

Python 和 Flask .............................................................................................56

展示数据 ..............................................................................................................58

安装Bootstrap ...............................................................................................58

启用Bootstrap ...............................................................................................59

使用d3.js 和nvd3.js 可视化数据 ..................................................................63

小结 .....................................................................................................................64

第4 章 在云端 ............................................................. 65

引言 .....................................................................................................................65

GitHub .................................................................................................................67

dotCloud ...............................................................................................................67

dotCloud Echo 服务 .......................................................................................68

Python 工作者服务 ........................................................................................71

Amazon Web Services ..........................................................................................71

Simple Storage Service ..................................................................................71

Elastic MapReduce ........................................................................................72

MongoDB 即服务 ..........................................................................................79

辅助工具(Instrumentation) ................................................................................81

Google Analytics ...........................................................................................81

Mortar Data ...................................................................................................82

第2 部分 登上金字塔 ................................................... 85

第5 章 收集和展示数据 ............................................... 89

整合软件栈 ..........................................................................................................90

收集并序列化收件箱 ...........................................................................................90

处理和发布邮件数据 ...........................................................................................91

在浏览器中显示邮件 ...........................................................................................93

用Flask 和pymongo 处理邮件数据 ..............................................................94

使用Jinja2 渲染HTML5 页面 ......................................................................94

敏捷检查点 ..........................................................................................................98

生成电子邮件清单 ...............................................................................................99

用MongoDB 显示邮件 .................................................................................99

对数据展示的分析 ...................................................................................... 101

搜索邮件 ............................................................................................................ 106

使用Pig,ElasticSearch 和Wonderdog 构建索引 ....................................... 106

在网页中搜索邮件数据 ............................................................................... 107

结论 ................................................................................................................... 108

第6 章 使用图表可视化数据 ....................................... 111

优秀的图表 ........................................................................................................ 112

抽取实体:邮件地址 ......................................................................................... 112

抽取邮件 ..................................................................................................... 112

对时间进行可视化 ............................................................................................. 116

结论 ................................................................................................................... 122

第7 章 利用报表探索数据 .......................................... 123

为数据添加联系 ................................................................................................. 126

用TF-IDF 从邮件中提取关键字 ........................................................................ 133

小结 ................................................................................................................... 138

第8 章 预测 .............................................................. 141

预测电子邮件的回复率 ...................................................................................... 142

个性化 ................................................................................................................ 147

小结 ................................................................................................................... 148

第9 章 驱动行动 ........................................................ 149

好邮件的属性 .................................................................................................... 150

使用朴素贝叶斯方法进行更好的预测 ............................................................... 150

P(Reply | From ∩ To) ........................................................................................ 150

P(Reply | Token) ................................................................................................. 151

实时预测 ............................................................................................................ 153

记录事件日志 .................................................................................................... 157

小结 ................................................................................................................... 157

索引 ........................................................................... 159


作者介绍:

作者介绍:Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。

译者介绍:朱洪波 阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。


出版社信息:

暂无出版社相关信息,正在全力查找中!


书籍摘录:

暂无相关书籍摘录,正在全力查找中!


在线阅读/听书/购买/PDF下载地址:

在线阅读地址:敏捷数据科学在线阅读

在线听书地址:敏捷数据科学在线收听

在线购买地址:敏捷数据科学在线购买


原文赏析:

总结一下,当数据模式定义严谨,且SQL是唯一的工具时,我们就不会从挖掘数据的角度看待数据,因为视角会被优化过的数据处理工具所支配。严谨的数据格式抑制了我们在数据与直觉之间建立起联系的能力。另一方面,半结构化的数据可以让我们专注于数据本身,通过迭代地操作数据来抽取价值,并转化为产品。在敏捷大数据中选择NoSQL,是因为它让我们具备了上述能力。


其它内容:

书籍介绍

《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig 及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。

《敏捷数据科学:用Hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。


精彩短评:

  • 作者:风Ooo 发布时间:2017-07-06 09:00:20

    小动物系列,内插不错,思路很清晰

  • 作者:volnet 发布时间:2022-12-11 23:06:54

    我曾有个疑惑,过去以业务为核心的应用开发,我们通常可以用demo到实现的方式进行敏捷,也就是当我有第一个文本块的时候,我就可以设计它并和客户讨论我的价值主张的可行性。因为我们要论证的是“我的或者客户的观点”。但在数据挖掘领域,我们要挖掘的是“数据的观点”,对,数据有自己的观点,既不是我的也不是客户的,我们只是提出对于观点的假设,并论证这些假设是否成立。

  • 作者:落雪青禾 发布时间:2015-02-08 23:29:12

    一般般般

  • 作者:沂水弦歌 发布时间:2014-09-09 15:59:19

    蛮失望的 整本书蜻蜓点水 关于算法几乎没有涉及

  • 作者:lee 发布时间:2012-09-03 09:48:05

    王跃文不疾不徐、平实但内藏机锋的文字里有这个态度——乡村生活需要保护。

  • 作者:懒得糊涂 发布时间:2018-02-20 10:46:13

    整本书用通俗易懂的一个案例介绍了一个完整数据流的处理过程,并没有介绍算法等核心功能。对不了解etl,olap的初学者有一个简明易懂的介绍,建议完全不懂大数据 数据清洗的人拿来看看,有过了解和研究的人不能得到帮助


深度书评:

  • 《赢在未来》:父母必读!中国孩子财商思维的启蒙书

    作者:西祖读书 发布时间:2022-09-24 18:56:21

    2020年,我已经30+岁,第一次接触“财商”这个概念!学完基础课之后,我又花了几大千报名了进阶课程。然后在当年年末,利用课程上学到的理财工具,三倍赚回了学费,第一次意识到“睡后收入”真的存在。

    2021年,我把《穷爸爸,富爸爸》《小狗钱钱》送给9岁的小侄儿。孩子读完之后,天天把这两本书背着上下学,可见对其的喜欢。与此同时,如何培养当时才5岁的儿子,拥有财商思维,这是我一直在思考却不知道怎么着手的问题。

    2022年9月,感谢@Ting老师向我推荐了这本《赢在未来》,读完书籍的序言,我就直呼太棒了!因为我从小缺失了“财商”这一课,所以迫切希望能在孩子这代从小培养,而这本书正是我想要找的!

    我希望我的孩子,以及更多的孩子能够从小培养财商思维和财商意识,提高沟通能力,建立由内而外的自信,为适应这个千变万化的世界做好准备!我十分赞同书中的观点:赢在未来的关键就在于从小培养孩子的商业精神!

    这本书分为四个章节,从赢在未来的心态、赢在未来的技巧、赢在未来的机会到赢在未来的指导,科学系统的接受了培养“创业型孩子”的方法,让孩子从固定型思维向成长型思维转变,找到掌控自己人生的力量。

    全书共包含46个思维训练,培养孩子的商业精神。让还像企业家一样思考和行动,让孩子更自信、更聪慧、更有创造力。让孩子从小在父母的引导下,培养自己的目标感,培养孩子独立自主解决问题的能力,让孩子敢于独当一面!

    与此同时,书中还包含了一百多位企业家父母的真实案例,这是指引孩子迈入复杂世界的关键一课。因为早一些接触商业世界的孩子,在未来能创造更大的可能性。《赢在未来》这本书不仅传递财商理念和思维,还有真是案例和实操方法,十分值得家长们读。

    或许有人会提出质疑,我家孩子以后就不创业,为什么要读这本书?我想用书中的一段话来回答:

    培养有创业精神的孩子,重要的不是让他成为下个史蒂夫·乔布斯或安妮塔·罗迪克,也不是一定要让他们创业,而是让他们在成长和认识世界的过程中有一种掌控感;相信自己有能力设定合适自己的目标,追求目标,并为之奋斗。

    著名的成功学大师卡耐基曾经做过一个关于人生目标的调查,结果他发现:世界上只有3%的人能有确定的目标,并且知道怎样把目标落实。而另外97%的人,要么根本没有目标,要么是目标不确定。所以要从小培养孩子的目标感,培养他的财商思维,都是在为孩子走向未来打基础。

    目标感的核心,从来都不是“目标”,而是“感”。创业精神的重点,也不是一定要创业,而是希望孩子具备某些优秀的品质,面对人生有更多的自主选择权,也能通过自己的认知来判断,什么才是最适合自己的。

    世界发展变化之快,思维和能力的提升同等重要,只有教练式的父母才能培养出创业型的孩子!作为一位中国家长,我深切意识到培养孩子的财商思维有多重要!所以我真诚的呼吁,希望有更多的父母能读一读《赢在未来》这本书,开启孩子的财商启蒙教育!

  • 这是一种哲学,不是一门技艺

    作者:蓬山远 发布时间:2020-06-13 18:25:02

    这本书的第二版已经于2018年出版了。这第一版面世于2014年,第二版在此基础之上有非常大幅度的修改。但最最基本的思路没有变化:端到端,全栈,敏捷,技术为具体业务服务。

    第二版的链接在下面:

    Spark全栈数据分析

    评价人数不足

    [美] Russell Jurney / 2018 / 电子工业出版社

    对比两个版本,除了内容扩充了不少,处理的问题更加充实,代码量更大,就连使用的技术手段也发生了巨大的变化:

    1)作者抛弃了pig,改用spark来处理数据流;

    2)第一版中作者对于机器学习的建模没有使用太多的工具,直接编码实现了tf-idf的简单计算,第二版中作者开始使用sklearn和MLib;

    3)第二版使用了Kafka来收集训练数据。

    这简直是脱胎换骨的变化,作者依然能够驾轻就熟,把数据的全栈端到端的方方面面工作呈现给读者,介绍每一个过程中最恰如其分的工具。作者不纠缠于拼图中的任何一块,而是要铺陈完整的一幅画面。我们罗列看看第一版这薄薄的一百多页中,作者都谈到过那些技术工具:

    数据流:Hadoop,Avro,Pig

    存储:MongoDB

    检索:ElasticSearch,Wonderdog

    微服务:Flask,Sinatra

    前端:bootstrap,Jinja2,d3.js

    建模:NLTK

    云计算平台:AWS,dotCloud,S3,Elastic MapReduce,Google Analytics,Montar Data

    又看到短短四年时间,作者及时跟上形势,在第二版中改用更时髦更好用的工具,不能不对作者的全局观和广博度钦佩不已。

    本书两个版本的英文名一以贯之,第一版叫Agile Data Science,第二版叫Agile Data Science 2.0。出版社出中译本的时候译名却有了些讲究,第一版直译《敏捷数据科学》,第二版用了书的副标题《spark全栈数据分析》。看起来似乎是“敏捷”一词不吸引人,“全栈”更满足大家的审美爱好。

    我以为全书的最精华,就在第一章,尽管这一章里没有任何的代码,而是务虚地大谈到底什么叫作“敏捷数据科学”。正是因为第一章的存在,才让我对作者起的堂堂正正的这个书名非常认可。

    一个数据分析产品/平台的搭建,流程极长:数据收集,流处理,存储,服务搭建,图表展示,算法建模,模型部署。对于互联网公司,搜索/广告/推荐服务,当然可以雇上几百人上千人,每个部门专门负责其中一块。可是传统商业领域对所谓“data science”的需求与此完全不同,必须要靠三五个人就完成所有的工作,每个人都要身怀多门技艺,哪里出了问题都要顶得上。技术人员除了要懂技术,也要懂业务,懂项目管理。不能追求对基础工具有多么深刻的理解和改造,要追求的是怎样在有限的资源条件下满足业务的需求,促进基于数据支撑的决策。

    非常遗憾的是,作者以如此广博的眼界,却没有获得豆瓣网友的好评。国内互联网以外的传统企业普遍仍然没有“数据科学”的意识,或者即便有了意识也并不够尊重技术方面的专业性,大多数人对“数据”的认识仍在excel的水平。“全栈”的概念在IT界热了一时,但终归没有收获实利。机器学习未入行的人只对算法理论感兴趣,入了行的人多在做一些加特征、加数据、模型刷新或者修改参数的工作。“面试造火箭,工作拧螺丝”乃是这个行业的现状。我们无可奈何,只能祝愿大家拓宽眼界。


书籍真实打分

  • 故事情节:7分

  • 人物塑造:3分

  • 主题深度:9分

  • 文字风格:5分

  • 语言运用:9分

  • 文笔流畅:6分

  • 思想传递:8分

  • 知识深度:6分

  • 知识广度:3分

  • 实用性:8分

  • 章节划分:8分

  • 结构布局:5分

  • 新颖与独特:4分

  • 情感共鸣:3分

  • 引人入胜:7分

  • 现实相关:3分

  • 沉浸感:6分

  • 事实准确性:9分

  • 文化贡献:6分


网站评分

  • 书籍多样性:6分

  • 书籍信息完全性:5分

  • 网站更新速度:7分

  • 使用便利性:5分

  • 书籍清晰度:7分

  • 书籍格式兼容性:8分

  • 是否包含广告:5分

  • 加载速度:9分

  • 安全性:6分

  • 稳定性:6分

  • 搜索功能:5分

  • 下载便捷性:6分


下载点评

  • 服务好(567+)
  • 无颠倒(184+)
  • 愉快的找书体验(285+)
  • 四星好评(181+)
  • azw3(188+)
  • 博大精深(144+)
  • 方便(84+)
  • 简单(169+)
  • 种类多(465+)
  • 一般般(121+)

下载评价

  • 网友 堵***洁: ( 2025-01-01 16:34:21 )

    好用,支持

  • 网友 芮***枫: ( 2024-12-28 16:35:52 )

    有点意思的网站,赞一个真心好好好 哈哈

  • 网友 方***旋: ( 2024-12-15 05:41:18 )

    真的很好,里面很多小说都能搜到,但就是收费的太多了

  • 网友 国***芳: ( 2024-12-27 22:50:39 )

    五星好评

  • 网友 薛***玉: ( 2024-12-22 11:28:21 )

    就是我想要的!!!

  • 网友 相***儿: ( 2024-12-18 18:30:40 )

    你要的这里都能找到哦!!!

  • 网友 林***艳: ( 2024-12-26 00:52:31 )

    很好,能找到很多平常找不到的书。

  • 网友 曾***文: ( 2025-01-01 15:50:57 )

    五星好评哦

  • 网友 田***珊: ( 2025-01-08 09:18:05 )

    可以就是有些书搜不到

  • 网友 邱***洋: ( 2024-12-10 05:19:44 )

    不错,支持的格式很多


随机推荐