博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据时代的遨游
阅读量:6760 次
发布时间:2019-06-26

本文共 1158 字,大约阅读时间需要 3 分钟。

Hadoop来临

特点:

海量数据需要及时分析和处理。

海量数据需要深入分析和挖掘。

数据需要长期保存

问题:

磁盘IO成为一种瓶颈,而非CPU资源。

网络带宽是一种稀缺资源

硬件故障成为影响稳定的一大因素

Hadoop在国内的应用

奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载

京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)

广告类公司:存储日志,通过协调过滤算法为客户推荐广告

Yahoo:垃圾邮件过滤

华为:云计算平台

Facebook:日志存储,实时分析

某公安部项目:网民QQ聊天记录与关联人调查系统,使用Hbase实现

某学校:学生上网与社会行为分析,使用hadoop

淘宝、阿里:国内使用Hadoop最深入的公司,整个Taobao和阿里都是数据驱动的

Hadoop介绍

作者:Doug Cutting(Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。)

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop特点

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5.低成本。与一体机、商用数据仓库等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

Hadoop生态结构

Hbase

Nosql数据库,Key-Value存储

最大化利用内存

HDFS

hadoop distribute file system分布式文件系统

最大化利用磁盘

MapReduce

编程模型,主要用来做数据的分析

最大化利用CPU

Hadoop测试常见问题和测试方法

http://xqtesting.blog.51cto.com/4626073/1349097

转载地址:http://aifeo.baihongyu.com/

你可能感兴趣的文章
iframe如何刷新的三种解决方案
查看>>
Unity通过Jar包调用Android
查看>>
vue-swiper的使用
查看>>
Ubuntu10.04上apache2: bad user name ${APACHE_RUN_USER}问题解决
查看>>
leetcode每日刷题计划-简单篇day5
查看>>
C语言学习-简介
查看>>
gradle下载及配置
查看>>
maven中央仓库、远程仓库地址
查看>>
PRD
查看>>
JAVASCRIPT 转换字符串杂记
查看>>
【无私分享:从入门到精通ASP.NET MVC】从0开始,一起搭框架、做项目(7.1) 模块管理,验证权限,展示模块列表...
查看>>
jquery鼠标悬停事件hover()
查看>>
hql查询语句 内存中的情况,fetch迫切查询关键字
查看>>
RabbitMQ安装,Windows下
查看>>
0415评论博客
查看>>
CSAPP buffer lab记录——IA32版本
查看>>
Hyperledger fabric多机的环境部署
查看>>
关于sqlserver2008 bcp根据数据表导出xml格式文件的小记
查看>>
总结:栈和队列的学习
查看>>
装个centos虚拟机之设置桥接网络
查看>>