2.0 Hive简介

2016-03-17 21:06:47 6,529 1

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Hive首页地址:https://cwiki.apache.org/confluence/display/Hive/Home

Hive定义

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。

运行环境

Hive是运行在Hadoop的基础之上的,而Hadoop运行又需要JDK,因此安装Hive时,必须要提前安装好JDK和Hadoop。

适用场景

Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此,Hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。

设计特征

Hive 是一种底层封装了Hadoop 的数据仓库处理工具,使用类SQL 的HiveQL 语言实现数据查询,所有Hive 的数据都存储在Hadoop 兼容的文件系统(例如,Amazon S3、HDFS)中。Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS 中Hive 设定的目录下,因此,Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。Hive 的设计特点如下。

● 支持索引,加快数据查询。

● 不同的存储类型,例如,纯文本文件、HBase 中的文件。

● 将元数据保存在关系数据库中(如derby、mysql等),大大减少了在查询过程中执行语义检查的时间。

● 可以直接使用存储在Hadoop 文件系统中的数据。

● 内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具,支持用户扩展UDF 函数来完成内置函数无法实现的操作。

● 类SQL 的查询方式,将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。


解惑1、Hive为什么不直接使用SQL进行查询,而是要自己定义一个HiveQL

我们知道sql是有标准的规范的,例如sql92标准、sql99标准。但是各个数据库厂商在实现自己的数据库产品时,可能并没有遵循同一套规范,而且每个数据库厂商基本上都会扩展SQL语法,例如Oracle和Mysql的分页查询语法就是不一样的,并且即使某个数据库厂商实现了某个规范,可能也不会完全的实现sql规范,例如mysql官方文档就介绍过,由于考虑性能的问题,并没实现sql规范中的所有标准。

这意味,如果直接使用sql的问题是:oracle的用户要使用oracle数据库的语法,而mysql用户要使用mysql的语法,sqlserver用户要用sqlserver的语法。

因此,直接使用SQL是不合适的,与其去支持不同的数据库产品的语法,不如定义一个自己的语法,因为数据库厂商太多了, 每一个都去支持基本上是不可能的。

解惑2、Hive如何实现类SQL查询

hive支持将类sql的查询,实际上是因为其有一套映射工具,在数据仓库的构建过程中,可以把关系型数据库中表,字段转换为HDFS中的文件(夹)以及文件中的列,这套工具称之为metastore在查询时, 可以将HiveQL转换为mapreduce中的job


Hive中包含的组件

  • HCatalog:其是Hive提供的Hadoop存储管理层(storage management layer )服务,支持用户使用不同的数据处理工具--包含Pig和MapReduce--来更加容易的读写数据。

  • WebHCat:通过HTTP接口(REST风格)的方式提供服务,支持的操作包括:运行MapReduce、Pig、Hive job或者Hive元数据操作等。


补充:derby简介

Apache Derby是一个完全用java编写的数据库,Derby是一个Open source的产品,基于Apache License 2.0分发。Apache Derby非常小巧,核心部分derby.jar只有2M,所以既可以做为单独的数据库服务器使用,也可以内嵌在应用程序中使用。 

在HIVE中,数据仓库的元数据可以存储在derby中,也可以存储在mysql中。如果不进行任何配置的话,默认的存储数据仓库的元数据就是derby。

Hive版本

Release Number

Original Number

1.0.00.14.1
1.1.00.15.0

0.14.1版本发展成了1.0.0版本

0.15.0版本发展成了1.1.0版本,本教程采用的就是此版本