|
[ 2013-2-1 ] [安装1]-基础扫盲及准备工作 |
Hadoop如今已经成长为一套体系,包含的组件众多,要学习的知识很多,目前互联网上的各类参考资料更是浩瀚,遇到这种情况很多朋友可能都在苦恼不知道该从何开始。就我来说倒没有这方面的烦恼,从来这么多年,接触的东西也很多,但不管要学习什么,我的学习路径很像那些爱玩游戏的孩子,接触到一个感兴趣的新东西,第一件事并不翻开它的说明书,而是先拿在手里把玩一番,遇着不懂的就去找专门应对方案。等有大致了解之后,再会系统的阅读官方提供的文档。 |
|
[ 2013-2-2 ] [安装2]-Hadoop环境配置 |
在hadoop集群中的每个节点都需要进行一些初始化配置,为下一步运行打下基础。 |
|
[ 2013-2-3 ] [安装3]-启动Hadoop基础服务 |
激动人心的时刻到了,启动hadoop集群,让我们见识见识传说中的Hadoop到底是怎么个情况吧。 |
|
[ 2013-3-22 ] [安装4]-添加与删除Hadoop节点 |
HADOOP提供了很强的伸缩性,本节我们来看一下如果对已有的HADOOP环境增加及删除节点 |
|
[ 2013-3-24 ] HDFS功能测试 |
前面我们已经配置了一套HADOOP环境,环境虽然有了,但不少朋友恐怕心头依旧茫然,不知道接下来该做什么,不要着急,这主要是因为我们(我字重读)对HADOOP的认知还停留在概念的层面,所知有限自然不明白该如何着手。其实HADOOP没有那么深奥,老话形容说就是层窗户纸,看着朦朦胧胧如雾里看花不知所以,其实一点儿就透。下面我给大家点点,要是没点儿透……您家窗户上装的那是玻璃呀。 |
|
[ 2013-3-25 ] MapReduce功能测试 |
MapReduce原理大致明白了,可现在仍不知从何处入手咋整呐,还好还好,hadoop自带了几个jar包即可用于测试,也能帮助大家快速理解。 |
|
[ 2013-4-2 ] 配置HADOOP开发环境(1)-初始化环境 |
考虑到Windows平台尽管界面友好,但Hadoop环境配置较"怪异",需借助cygwin,这个过程并不优雅。正好我手上另有一套ubuntu环境,用着也很顺手,就在ubuntu中安装了Eclipse IDE,在这套环境中配置安装Hadoop开发环境。 |
|
[ 2013-4-3 ] 配置HADOOP开发环境(2)-配置开发环境 |
环境初始化好之后,接下来需要对Eclipse开发环境进行配置,以便能让其支持HADOOP的开发和调试。 |
|
[ 2013-4-4 ] 配置HADOOP开发环境(3)-代码开发和调试 |
前面部署HADOOP时曾经测试过wordcount程序,这样我们在Eclipse也调试这一功能。HADOOP提供了这些示例的源代码,大家可以在HADOOP安装文件根路径下的examples目录下找到一些示例文件,这将有助于我们理解mapreduce程序的开发~ |
|
[ 2013-4-6 ] 配置HADOOP开发环境(4)-配置JAVADOC |
IDE工具之所以易用,就是辅助功能做的好。在开发代码时,能够减化操作,或者提供帮助。比如javadoc功能,方便我们快速查询方法相关描述、示例等帮助信息,那么对于新引入的HADOOP相关包有没有javadoc支持呢?回答是肯定的,HADOOP软件包中就带有这些内容,位于HADOOP软件根路径的docs目录下。 |
|
[ 2013-4-14 ] 安装HBase分布式数据库 |
不要以为山寨的就是低端货,君不见BigTable的山寨版HBase就发展的如火如荼;山寨也是有技术含量的,从HADOOP下面的一个子项目发展为APACHE基金会的顶级项目,如今在开源业内的影响力更是与日俱增。HBase应该可以算是NoSQL产品线中的一员,最起码不属于关系型数据库。在设计上属于结构化与非结构化的集合,其最大优势在于能够弹性伸缩,使其可以通过简单的增加节点的方式,来扩展支撑能力。今天我们先快速接触一下安装和使用,以加深对其的理解。 |
|
[ 2013-4-15 ] shell命令行中操作HBase数据库 |
HBase提供了多种访问接口,比如说最常规和高效的JAVA API方式,又比如通过RESET/Thrift接口方式,或者使用专用的Hive/Pig这种专用开源工具操作,不过这些方式的操作都有门槛。本节我们通过HBase shell,一种HBase原生提供的命令行工具,这是最简单的接口操作方式,安装好HBase后就可以使用,我们先通过它来创建和操作对象,以加深大家对HBase机制的理解。 |
|
[ 2013-5-2 ] Hive远程模式安装配置 |
Hive是由Facebook贡献给Apache的开源项目,这个工具可以说是完全为DBA而生,它的的目标,是希望能让精通SQL但不熟悉JAVA编程的工程师,在HADOOP的大潮中不至于下岗待业,即使完全不懂JAVA,也能在HDFS数据分析中继续发挥光和热。Hive是做什么呢,个人理解可以将其视为一个SQL语言的解释器,它能将DBA提交的SQL语句,转换成能够在HADOOP上执行的M-R作业,对于DBA或前端用户来说,不必再将精力花在编写M-R应用上,直接借助SQL的易用性来实现大规模数据的查询和分析。 |
|
[ 2013-5-13 ] HiveQL应用体验 |
Hive提供的类SQL的操作体验,从语法上来看,近似于MySQL,从功能上来看,近似于SQL92,不过大家注意了,都只是近似而已。 |
|
[ 2013-5-13 ] HDFS和RDBMS交互专用工具sqoop |
sqoop 是apache下用于RDBMS和HDFS互相导数据的工具。 本文档是sqoop的使用实例,实现从mysql到hdfs互导数据 |
|
[ 2013-5-15 ] 使用perl通过thrift连接hbase读取数据 |
Thrift是一种跨语言的服务部署框架,通过一种中间语言定义RPC接口,然后通过编译器生成不同语言的代码,能够支持常见的开发语言,包括c#,java,python,php,ruby等等。本文尝试使用perl语言,通过thrift连接Hbase。 |
|
[ 2013-5-15 ] ORACLE连接HADOOP(1)做些准备 |
大数据这股旋风越刮越猛烈,HADOOP家族有这股东风做助力更是如虎添翼,传统的软件厂商,比如像ORACLE这类本身就标榜着数据处理专业户的也不甘落后,提供了专门的连接器,用于处理大数据。不仅仅是努力提高自身能力,而且还可以通过配置,读取HADOOP中HDFS保存的数据。今天,咱们尝试两种读取HADOOP中数据的方案。 |
|
[ 2013-5-16 ] ORACLE连接HADOOP(2) - HDFS专用SQL连接器ODCH |
使用ORACLE连接HDFS有个专项的解决方案[O]racle [D]irect [C]onnector for [H]adoop Distributed Files System,简称ODCH。 |
|
[ 2013-5-17 ] ORACLE连接HADOOP(3) - OLH加载HDFS数据 |
Oracle提供了专用的数据加载器,可以直接从HADOOP中加载数据到指定对象,该软件包下载地址:Oracle Loader for Hadoop Release 2.1.0 |
|