Cover is for reference only

Please scan the QR code to borrow online

深入大型数据集:并行与分布化Python代码 = Mastering large datasets with Python:parallelize and distribute your Python code

Saved in:
Bibliographic Details
Main Authors: 美 沃勒翰 Wolohan, John T ((美)John T. Wolohan著)
Group Author: 张若飞 (译)
Published: 电子工业出版社
Publisher Address: 北京
Publication Dates: 2021
Literature type: Book
Language: Chinese
Subjects:
Carrier Form: ⅩⅩ,300页: 图 ; 24cm
ISBN: 978-7-121-40368-2
Index Number: TP311
CLC: TP311.561
Call Number: TP311.561/3144-3
Contents: 博文视点
本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3