Hive là gì

  -  

Thuật ngữ Big Data được sử dụng cho những bộ tập dữ liệu khổng lồ bao hàm khối lượng lớn, tốc độ cao và những loại tài liệu đang tăng lên từng ngày. Sử dụng những hệ thống thống trị dữ liệu truyền thống, rất cực nhọc để xử trí Big data. Do đó, Quỹ phần mềm Apache (Apache Software Foundation) đã giới thiệu một framework tên là Hadoop để giải quyết các thách thức cai quản và giải pháp xử lý Big data.

Bạn đang xem: Hive là gì

Hadoop

Hadoop là một trong framework open-source để lưu trữ và cách xử trí Big data trong môi trường xung quanh phân tán. Nó đựng hai mô-đun, một là MapReduce và một mô-đun không giống là khối hệ thống tệp phân tán Hadoop (Hadoop Distributed tệp tin System - HDFS).

MapReduce: Đây là quy mô lập trình tuy nhiên song để xử lý một lượng lớn tài liệu có cấu trúc, bán cấu trúc và không cấu trúc trên các cụm mập của phần cứng dịch vụ thương mại (commodity hardware).HDFS: khối hệ thống tệp phân tán Hadoop là một phần của framework Hadoop, được áp dụng để tàng trữ và xử lý những bộ dữ liệu. Nó cung cấp một khối hệ thống tập tin chịu đựng lỗi để điều khiển xe trên phần cứng thương mại.

Hệ sinh thái Hadoop chứa những sub-project (tool) khác biệt như Sqoop, Pig cùng Hive được sử dụng để trợ giúp các mô-đun Hadoop.

Sqoop: Nó được thực hiện để nhập cùng xuất tài liệu đến và đi thân HDFS và RDBMS.Pig: Đây là một trong những nền tảng ngôn ngữ thủ tục được áp dụng để cải cách và phát triển tập lệnh mang đến các hoạt động vui chơi của MapReduce.

Xem thêm: Local/Expat Là Gì ? Tìm Hiểu Khái Niệm Và Ý Nghĩa Của Từ Nghĩa Của Từ Expat

Hive: Đây là một nền tảng được áp dụng để cải tiến và phát triển các tập lệnh một số loại SQL để tiến hành các chuyển động MapReduce.

Chú ý: có tương đối nhiều cách khác nhau để triển khai các vận động MapReduce:

Cách tiếp cận truyền thống cuội nguồn sử dụng chương trình Java MapReduce cho dữ liệu có cấu trúc, bán kết cấu và không cấu trúc.Cách tiếp cận sử dụng câu lệnh mang đến MapReduce nhằm xử lý dữ liệu có kết cấu và bán kết cấu bằng Pig.Ngôn ngữ truy tìm vấn Hive (HiveQL hoặc HQL) đến MapReduce để xử lý dữ liệu có kết cấu bằng Hive.Hive là gì?

Hive là 1 công cụ hạ tầng kho dữ liệu để xử lý tài liệu có cấu trúc trong Hadoop. Nó vị trí đỉnh Hadoop nhằm tóm tắt dữ liệu lớn và giúp truy hỏi vấn và phân tích dễ dàng.

Ban đầu Hive được phát triển bởi Facebook, tiếp nối Quỹ ứng dụng Apache đã lấy và cải tiến và phát triển nó thành một nguồn mở dưới tên Apache Hive. Nó được sử dụng bởi những công ty khác nhau. Ví dụ: Amazon sử dụng nó trong Amazon Elastic MapReduce.

Hive không phải là:Một database quan hệMột thiết kế để xử lý thanh toán Online (OnLine Transaction Processing - OLTP)Một ngôn ngữ cho các truy vấn thời hạn thực và cập nhật cấp hàngĐặc trưng của HiveNó tàng trữ lược trang bị trong cơ sở dữ liệu và xử lý dữ liệu vào HDFS.Nó được thiết kế cho OLAP.Nó hỗ trợ ngôn ngữ vẻ bên ngoài SQL để truy vấn được hotline là HiveQL hoặc HQL.Nó là quen thuộc thuộc, nhanh chóng, có chức năng mở rộng.Kiến trúc của Hive

Sơ đồ dưới đây mô tả phong cách xây dựng của Hive:

*
Sơ thiết bị thành phần này chứa các đơn vị khác nhau.

User Interface: Hive là 1 phần mềm cơ sở hạ tầng kho dữ liệu có thể tạo ra sự thúc đẩy giữa người tiêu dùng và HDFS. Các giao diện người tiêu dùng mà Hive hỗ trợ là Hive website UI, Hive command line và Hive HD Insight (Trong sever Windows).Meta Store: Hive chọn những máy chủ các đại lý dữ liệu khớp ứng để tàng trữ lược vật hoặc metadata của các bảng, cơ sở dữ liệu, các cột trong một bảng, các loại dữ liệu của bọn chúng và ánh xạ HDFS.HiveQL Process Engine: HiveQL tương tự như như SQL nhằm truy vấn tin tức lược đồ vật trên Metastore. Đây là một trong những thay nỗ lực của cách thức truyền thống đến chương trình MapReduce. Thay bởi vì viết chương trình MapReduce bởi Java, chúng ta có thể viết một tróc nã vấn cho quá trình MapReduce và giải pháp xử lý nó.Execution Engine: Phần phối hợp của nguyên tắc xử lý HiveQL với MapReduce là Công cụ triển khai Hive (Hive Execution Engine). Công cụ thực hiện xử lý truy vấn vấn với tạo công dụng giống như công dụng MapReduce.HDFS hoặc HBASE: khối hệ thống tệp phân tán Hadoop hoặc HBASE là những kỹ thuật tàng trữ dữ liệu để tàng trữ dữ liệu vào hệ thống tệp.Cách làm việc của Hive

Sơ đồ gia dụng sau mô tả quy trình thao tác giữa Hive cùng Hadoop.

*

Cách Hive xúc tiến với framework Hadoop:

Thực thi query: hình ảnh Hive như Command line hoặc Giao diện người dùng web gửi truy vấn mang lại Trình tinh chỉnh (bất kỳ trình tinh chỉnh và điều khiển cơ sở tài liệu nào như JDBC, ODBC, v.v.) để thực thi.Nhận kế hoạch: Trình điều khiển và tinh chỉnh có sự trợ giúp của trình biên dịch truy vấn vấn nhằm phân tích cú pháp tróc nã vấn để kiểm soát cú pháp và kế hoạch truy vấn hoặc yêu cầu của truy vấn vấn.Nhận metadata: Trình biên dịch gửi yêu cầu metadata đến Metastore (bất kỳ cơ sở dữ liệu nào).Gửi metadata: Metastore nhờ cất hộ metadata như một ý kiến cho trình biên dịch.Gửi kế hoạch: Trình biên dịch kiểm tra yêu ước và gởi lại planer cho trình điều khiển. Đến đây, câu hỏi phân tích cú pháp cùng biên dịch một tầm nã vấn sẽ hoàn tất.Kế hoạch thực hiện: Trình tinh chỉnh và điều khiển gửi kế hoạch triển khai đến mức sử dụng thực thi.Thực kiến tạo việc: vào nội bộ, quá trình thực thi công việc là một quá trình MapReduce. Công cụ tiến hành gửi các bước đến JobTracker, vào node Name cùng nó gán công việc này cho TaskTracker, trong node Data. Ở đây, tróc nã vấn thực thi công việc MapReduce.

Xem thêm: #1 Absorption Costing Là Gì ? Absorption And Marginal Costing

Hoạt rượu cồn metadata: trong khi thực hiện, hình thức thực thi rất có thể thực thi các hoạt động metadata với Metastore.Lấy kết quả: Công cụ tiến hành nhận công dụng từ các node Data.Gửi kết quả: Công cụ thực thi gửi các giá trị tác dụng đó mang đến trình điều khiển.Gửi kết quả: Trình điều khiển và tinh chỉnh gửi tác dụng đến hình ảnh Hive.