咨询热线:    40000-53353(全国)    0571-28976118(浙江)    
 

MapR意欲将SQL on Hadoop推向新的高度

为了彻底摆脱管理规划的束缚并告别在内容探索前需要对输入数据进行的长时间ETL(即提取、转换与加载)任务,MapR在其Hadoop发行版中引入了Apache Drill分布式ANSI SQL查询引擎。

为了帮助用户告别一系列强度极高的数据工程处理任务,MapR日前对其Hadoop发行版进行了更新、核心内容在于引入Apache Drill 0.5。

Drill是一款开源分布式ANSI SQL查询引擎,旨在进行自助式数据探索——它属于谷歌Dremel系统的开源版本,搜索巨头将其作为BigQuery服务的核心组件之一实现内部大型数据集的查询工作。Apache Drill的既定目标是拥有扩展至上万台甚至更多服务器的强大能力,同时保证用户可以在数秒之内处理PB级别数据以及上万亿条记录信息。

Drill查询引擎拥有以下各项能力:

• =在不改变原生格式的前提下进行数据探索(包括Parquet、JSON文件以及HBase表),而且无需数据库管理员的介入。

• 对不断变化且来自MongoDB等NoSQL数据存储体系以及在线REST API的半结构化/嵌套式数据进行分析。

• 创建出能够同时包含多种不同Hadoop数据源的查询机制,例如文件、HBase表以及Hive表。

• 重复使用现有SQL技术集、商务智能工具以及Apache Hive部署方案。

“我们对此感到非常兴奋,因为它真正开启了SQL-on-Hadoop的发展新时代,”MapR公司首席营销官Jack Norris表示。“其关注重点在于为Hadoop带来自助式数据探索能力,且完全无需IT部门的介入。”

这是因为Drill能够为用户带来让SQL查询直接面向多种数据格式加以运行的能力,它可以被用于对刚刚传输到的实时数据进行探索、而不再需要相关技术人员花费数周时间筹备管理规划或者设置ETL任务。通过这种方式,它成功地帮助使用者在处理多种数据源时拥有了即时性自助式数据探索方案。

“企业用户希望能够对保存在Hadoop以及NoSQL数据库当中的数据加以访问,并利用现有SQL分析技能将这种访问能力拓展到更为广泛的实际使用者群体当中,”451研究机构数据平台与分析研究主管Matt Aslett指出。“Apache Drill有能力帮助用户访问Hadoop当中存储的数据,而且完全无需制定任何集中式规划。除此之外,包含嵌套与重复域等复杂数据结构的NoSQL数据集也可以得到直接使用,这在传统SQL-on-Hadoop方案当中是完全不可想象的。”

“其它任何一款SQL-on-Hadoop解决方案,无论是Hive、Tez或者其它什么产品,在运行当中都需要依赖于固定的规划与模式,”Norris同时补充称。“无论大家着眼于MapReduce、Hive或者其它任何一种SQL-on-Hadoop解决方案,都需要某种中间人机制负责处理建模、数据转换以及分析支持等任务。Drill的亮点则正在于此——可以在无需等待的前提下实现数据探索,而这无疑会让用户拥有令人振奋的速度与敏捷性优势。”

MapR公司将Drill打包塞进了MapR 4.0.1版本,此版本日前刚刚闪亮登场。这款Hadoop发行版最新版本对自身面向各类用例的实时处理能力进行了显著扩展,具体用例类型包括业务应用程序、交互式查询以及数据流处理等。

新版本当中还包含多套批处理框架,具体有MapReduce 1.x与2.x(基于YARN)以及Spark(0.9与1.0.2版本)。它还支持五项SQL-on-Hadoop技术方案:Hive(0.11、0.12与0.13版本)、Drill(0.5版本)、SparkSQL(1.0.2版本)、Impala(1.3.1版本)并且拥有与惠普Vertica相集成的认证资质。它新增了面向HBase(0.94.21与0.98.4版本)的支持能力以及MapR-DB NoSQL技术。此外,最新的MapR还拥有三项机器学习与图形库方案,分别为Mahout(0.8与0.9版本)、MLLib(0.9与1.0.2版本)外加GraphX。