整理大数据期末考试复习提纲--概念整理

 科学     |      2019-12-19

大数目简单介绍

大数量的定义

Volume(数据体量卡塔尔国、Variety(数据类型卡塔尔(英语:State of Qatar)、Viscosity(价值密度卡塔尔、Velocity(速度卡塔尔(قطر‎、维拉city(真实性卡塔尔(قطر‎

大额的性质

非构造性、不康健性、时间效果与利益性、安全性、可信赖性

大数据管理的全经过

数码搜聚与记录 -->  数据抽出、清洗、标志  -->  数据集成、转变、简约  -->  数据解析与建立模型  -->  数听别人表明

大额本领的特点

1.深入分析宏观的多寡而非随机取样

2.讲究数量的犬牙相制,弱化精确性

3.关心数据的相关性,而非因果关系

大额的关键才具

流管理、并行化、摘要索引、可视化

大额运用趋向

分开集镇、拉动公司提升、大数目深入深入分析的新办法出现、大额与云计算中度融入、大数量完整设施陆陆续续现身、大数目安全

没有什么可争辨的钻探范式

第一范式(科学实验卡塔尔(قطر‎、第二范式(科学理论卡塔尔(قطر‎、第三范式(系统模拟卡塔尔国、第四范式(数据密集型计算卡塔尔(英语:State of Qatar)

Gray准绳

1.科学总计数据爆炸式增进

2.消除方案为横向扩展的类别结构

3.将总计用于数据并非多少用于总结(把程序向数据迁移。以总结为基本转移为以数据为着力卡塔尔(قطر‎

CAP理论

Consistency(大器晚成致性卡塔尔国、Availability(可用性卡塔尔(英语:State of Qatar)、Partition Tolerance(分区容错性卡塔尔国

CAP定理

四个布满式系统不容许同期满意后生可畏致性、可用性、分区容错性四个种类要求,最八只可以同一时间满足五个。

CAP选择

1.吐弃分区容错,引致可扩张性不强:MySQL、Postgres

2.放任可用性,以致品质不是特意高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.甩掉豆蔻梢头致性,对生机勃勃致性必要低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS目标

1.包容降价的硬件设备

2.流数目读写

3.大数据集

4.简易的文书模型

5.强盛的跨平台兼容性

HDFS首要组件(图来源多特Mond理教院大额课程李先生的课件卡塔尔国

图片 1

HDFS读文件

图片 2


 

图片 3

HDFS写文件

图片 4

HDFS容错

1.心跳检查评定:NameNode和DataNode之间

2.文书块完整性:记录新建文件全数块的校验和

3.集群载荷均衡:自动从负载重的DataNode上迁移数据

4.文件删除:存放在/trash下,过大器晚成段时间才正式删除。在hdfs-site.xml中布置

MapReduce

函数式编制程序优点

1.逻辑可证

2.模块化

3.组件化

4.便于调节和测量检验

5.易于测验

6.越来越高的坐褥率

函数式编制程序的风味

1.并未有副功能:未有改造过函数在其成效域之外的量并被其余函数使用

2.无状态的编制程序:将气象保存在参数中,作为函数的附赠品来传递(不是很懂卡塔尔(قطر‎

3.输入值和输出值:在函数式编制程序中,唯有输入值和输出值。函数是中心的单位。在面向对象编制程序中,将指标传来传去;在函数式编制程序中,是将函数字传送来传去。

MapReduce流程图(图来自南大黄宜华先生的课件卡塔尔(قطر‎

图片 5

大数量流式总计

流式数据的性状

实时性、易失性、突发性、无序性、无限性、准确性

大额流式总结模型

数据流管理连串:固定查询、ad hoc查询

大数额流式总计:Facebook(TWTR.US卡塔尔(英语:State of Qatar) Storm、Yahoo S4

Storm总体布局

主节点Nimbus:担负全局能源分配、职分调节、状态监察和控制、故障检验

从节点Supervisor:选择任务,运维或终止专门的学问历程Worker。每一个Worker内部有五个Executor。每一种Executor对应一个线程。每个Executor对应二个或五个Task。

Zookeeper:协和、存款和储蓄元数据、从节茶食跳消息、存款和储蓄整个集群的具有情形音讯、全数配置新闻

Storm特征

1.编制程序轻便

2.扶助多语言

3.作业级容错

4.水准扩张

5.底层使用Zero新闻队列,快

Storm缺点

1.财富分配未有思索职务拓扑的结构特征,不可能适应数据负载的动态变化

2.行使集中式的作业级容错,节制了系统的可扩张性

检索引擎

探索引擎的定义

基于早晚的国策、运用特定的微处理器程序、从互连网络搜集音讯,对新闻进行集体和拍卖以后,将那一个音讯展示给客户的连串叫寻找引擎。

搜求引擎的构成

寻觅器:收罗新闻

索引器:抽出索引

检索器:在库中找找,排序。

顾客接口:体现

搜寻引擎的做事进度

爬行 -> 抓取存款和储蓄 -> 预管理 -> 排名

寻觅引擎的褒贬指标

查全率、查准率、响适当时候间、覆盖面、客户方便性

大数目深入分析

数量深入解析的指标

对胡说八道的数额开展聚焦、萃取、提炼,进而找寻所探讨对象的内在规律,开采其价值。

数量剖析的含义

在混乱的数量中解析出有价值的剧情,获得对数码的回味。

数码解析的品种

1.查究性数据深入解析(为了产生值得若是的查看卡塔尔(英语:State of Qatar)

2.定性数据解析(非数值型数据卡塔尔(قطر‎

3.离线数据剖析(先存于磁盘,批管理卡塔尔(英语:State of Qatar)

4.在线数据拆解解析(实时卡塔尔国