大数据技术原理与应用
大数据技术原理与应用
20万+ 人选课
更新日期:2024/11/02
开课平台爱课程(中国大学MOOC)
开课高校厦门大学
开课教师林子雨
学科专业工学计算机类
开课时间2024/09/02 - 2024/12/14
课程周期15 周
开课状态开课中
每周学时-
课程简介

入门级大数据课程,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据课程。课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。

课程内容(固定在每周一上午10点发布一章内容):


第一讲:大数据概述(2024年9月2日发布)

第二讲:大数据处理架构Hadoop(2024年9月9日发布)

第三讲:分布式文件系统HDFS(2024年9月16日发布)

第四讲:分布式数据库HBase(2024年9月23日发布)

第五讲:NoSQL数据库(2024年9月30日发布)

第六讲:云数据库(2024年10月7日发布)

第七讲:MapReduce(2024年10月14日发布)

第八讲:Hadoop架构再探讨(2024年10月21日发布)

第九讲:数据仓库Hive(2024年10月28日发布)

第十讲:Spark(2024年11月4日发布)

第十一讲:流计算(2024年11月11日发布)

第十二讲:Flink(2024年11月18日发布)

第十三讲:图计算(2024年11月25日发布)

第十四讲:大数据在不同领域的应用(2024年12月2日发布)

期末考试:2024年12月9日上午10点到12月14日晚上9点


学习完本入门级课程以后,欢迎继续在中国大学MOOC平台学习后续的进阶级大数据课程《Spark编程基础》(课程地址:https://www.icourse163.org/course/XMU-1205811805

课程大纲

第1章 大数据概述

1.1大数据时代

1.2大数据的概念和影响

1.3大数据的应用

1.4大数据的关键技术

1.5 大数据与云计算、物联网的关系

第1章 大数据概述 单元测验

第2章 大数据处理架构Hadoop

2.1Hadoop简介和版本演变

2.2Hadoop项目结构

2.3Linux和Hadoop的安装

2.4Hadoop集群的部署和使用

第2章 大数据处理架构Hadoop 单元测验

第3章 分布式文件系统HDFS

3.1 分布式文件系统HDFS简介

3.2 HDFS相关概念

3.3 HDFS体系结构

3.4 HDFS存储原理

3.5 HDFS数据读写

3.6 HDFS编程实践

第3章 分布式文件系统HDFS 单元测验

第4章 分布式数据库HBase

4.1 HBase简介

4.2 HBase数据模型

4.3 HBase的实现原理

4.4 HBase运行机制

4.5 HBase应用方案

4.6 HBase的安装和编程实践

第4章 分布式数据库HBase单元测验

第5章 NoSQL数据库

5.1 NoSQL数据库

5.2 NoSQL与关系数据库的比较

5.3 四大类型NoSQL数据库

5.4 NoSQL数据库的理论基石

5.5 从NoSQL到NewSQL数据库

5.6 文档数据库MongoDB

第5章 NoSQL数据库 单元测验

第6章 云数据库

6.1 云数据库概述

6.2 云数据库产品

6.3 UMP系统

6.4 Amazon云数据库

6.5 微软云数据库SQL Azure

第6章 云数据库 单元测验

第7章 MapReduce

7.1 MapReduce简介

7.2 MapReduce的体系结构

7.3 MapReduce工作流程概述

7.4 Shuffle过程原理

7.5 MapReduce应用程序执行过程

7.6 实例分析:WordCount

7.7 MapReduce的具体应用

7.8 MapReduce编程实践

第7章 MapReduce 单元测验

第8章 Hadoop再探讨

8.1 Hadoop的优化与发展

8.2 HDFS HA和HDFS Federation

8.3 YARN

8.4 Hadoop生态系统中具有代表性的功能组件

第8章 Hadoop再探讨 单元测验

第9章 数据仓库Hive

9.1 数据仓库概念

9.2 Hive简介

9.3 SQL语句转换成MapReduce作业的基本原理

9.4 Impala

9.5 Hive的安装和基本操作

第9章 数据仓库Hive 单元测验

第10章 Spark

10.1 Spark简介

10.2 Spark生态系统

10.3 Spark运行架构

10.4 Spark SQL

10.5 Spark的部署和应用方式

10.6 Spark的安装和编程实践

第10章 Spark 单元测验

第11章 流计算

11.1 流计算概述

11.2 流计算处理流程

11.3 流计算的应用

11.4 开源流计算框架Storm

11.5 Spark Streaming、Samza以及三种流计算框架的比较

11.6 Storm的安装和编程实践

第11章 流计算 单元测验

第12章 Flink

12.1Flink简介

12.2为什么选择Flink

12.3Flink应用场景

12.4Flink技术栈、体系架构和编程模型

12.5Flink的安装和编程实践

第12章 Flink 单元测验

第13章 图计算

13.1 图计算简介

13.2 Pregel简介

13.3 Pregel图计算模型

13.4 Pregel的C++ API

13.5 Pregel的体系结构

13.6 Pregel的应用实例——单源最短路径

13.7 Hama的安装和使用

第13章 图计算 单元测验

第14章 大数据在不同领域的应用

14.1大数据应用概览

14.2 大数据在互联网领域的应用——推荐系统

14.3 基于大数据的综合健康服务平台

第14章 大数据在不同领域的应用 单元测验