Apache Spark là gì? Nh?ng ?i?u b?n c?n bi?t v? mã ngu?n m? Apache Spark

Apache Spark là gì? Nh?ng ?i?u b?n c?n bi?t v? mã ngu?n m? Apache Spark

Apache Spark là thu?t ng? nh?n ???c r?t nhi?u s? quan tâm c?a nhi?u công ty trong vi?c ?ng d?ng công ngh? ?? phân tích và x? lý d? li?u m?t cách nhanh chóng. Tuy nhiên, ??i v?i m?t s? ng??i m?i b?t ??u tìm hi?u v? Apache Spark thì vi?c tìm ki?m ngu?n thông tin h?u ích và ?áng tin c?y là m?t ?i?u vô cùng quan tr?ng.

Trong bài vi?t này, Casino VN138 s? mang ??n cho b?n ??y ?? và chi ti?t nh?t ??nh ngh?a Apache Spark là gì? Nh?ng thành ph?n c? b?n và ?u ?i?m n?i b?t nào c?a Apache Spark mà b?n nên bi?t ??n.

Apache Spark là gì?

Apache spark là m?t framework mã ngu?n m? tính toán c?m (open source cluster computing framework) ???c AMPLap phát tri?n vào n?m 2009. Apache spark ???c trao l?i cho Apache Software Foundation vào 2013 và ti?p t?c phát tri?n cho ??n ngày nay.

Apache Spark là gì?

Apache Spark là m?t n?n t?ng cho phép b?n xây d?ng nh?ng mô hình d? ?oán nhanh chóng v?i kh? n?ng th?c hi?n tính toán cùng lúc trên m?t nhóm các máy tính hay trên toàn b? các t?p d? li?u mà không c?n thi?t ph?i xu?t các m?u tính toán th? nghi?m. T?c ?? x? lý d? li?u c?a Apache spark ph? thu?c vào kh? n?ng th?c hi?n nhi?u phép tính khác nhau cùng lúc trong b? nh? trong ho?c RAM.

Apache Spark cho phép b?n x? lý d? li?u trong th?i gian th?c. Nói cách khác, nó có th? v?a nh?n d? li?u t? các ngu?n d? li?u khác nhau v?a x? lý d? li?u mà nó ?ã nh?n ???c cùng m?t lúc. Apache Spark không có h? th?ng t?p riêng. Nó s? d?ng nhi?u h? th?ng t?p tin khác nhau nh? S3, Cassandra, HDFS, .. và hoàn toàn ??c l?p v?i m?t trong các h? th?ng t?p

Các thành ph?n c?a Spark

?? có ???c cái nhìn chi ti?t h?n và hi?u h?n v? n?n t?ng Apache Spark, sau ?ây Casino VN138 s? cung c?p cho b?n nh?ng thành ph?n c? b?n và quan tr?ng c?a Spark.

Các thành ph?n c?a Spark

Spark Core

Là thành ph?n c? b?n c?a Spark. Spark Core ???c xem là n?n t?ng và ?i?u ki?n cho s? v?n hành c?a các thành ph?n còn l?i c?a Apache Spark. T?i ?ây, chúng ??m nh?n vai trò th?c hi?n các công vi?c tinh toán và x? lý trong b? nh? và tham chi?u v?i d? li?u ?ã ???c l?u tr? t?i các h? th?ng bên ngoài.

Spark SQL

Là m?t thành ph?n cung c?p Schema RDD trong h? tr? các ki?u d? li?u có c?u trúc d? li?u bán c?u trúc. Thành ph?n này cho phép th?c hi?n các ho?t ??ng trên khung d? li?u c?a các ngôn ng? nh? Java, Scala ho?c Python nh? h? tr? ngôn ng? dành riêng cho mi?n c?a SQL.

Spark Streaming

M?c ?ích c?a thành ph?n này là x? lý d? li?u d??i d?ng các lô nh? và th?c hi?n các k? thu?t chuy?n ??i v?i d? li?u ?ó ?? phân tích lu?ng. ?i?u này t?o ?i?u ki?n cho phát tri?n x? lý lu?ng và ki?n ??trúc Lambda b?ng cách s? d?ng l?i mã ???c vi?t ?? x? lý hàng lo?t.

MLlib

Là m?t thành ph?n c? b?n c?a Apache Spark. M?t n?n t?ng h?c máy, Spark MLlib nhanh h?n g?p 9 l?n so v?i phiên b?n ch?y trên Hadoop (theo so sánh c?a benchmark) nh? ki?n trúc phân tán d?a trên b? nh?.

GrapX

Grapx là m?t n?n t?ng x? lý ?? th? d?a trên Spark. Nó cung c?p các API và s? d?ng ?? di?n t? t?t c? các tính toán c?a ng??i th?c hi?n thông qua Pregel Api.

Theo th?ng kê t?i ngu?n d? li?u mà Spark cung c?p thì ng??i dùng Spark SQL là 69%, ng??i s? d?ng Dataframes là kho?ng 62% và 58% ng??i s? d?ng Spark Streaming và MLlib + GraphX.

B?n có th? tìm hi?u Lazy loading là gì qua bài vi?t: Lazy loading là gì? T?ng h?p ki?n th?c v? Lazy loading mà b?n c?n bi?t

M?t s? ?u ?i?m n?i b?t c?a Apache Spark

M?t s? ?u ?i?m n?i b?t c?a Apache Spark
  • Kh? n?ng t??ng thích: N?n t?ng có th? tích h?p v?i t?t c? các ??nh d?ng t?p và các ngu?n d? li?u do c?m Hadoop h? tr?.
  • Kh? n?ng x? lý d? li?u: H? th?ng x? lý d? li?u theo lô và th?i gian th?c.
  • H? tr? ngôn ng?: Các ngôn ng? ???c h? tr? bao g?m Java, Python, Scala và R.
  • D? qu?n lý: B?n có th? d? dàng qu?n lý giao di?n REST (submit, b?t ??u, d?ng l?i, xem tr?ng thái, sparkcontext, spark job)
  • ?i?u ch?nh ?? tr?: t?o s?n nh?ng sparkcontext cho các công vi?c dùng chung mà ng??i dùng có th? gi?m ho?c t?ng ?? tr? th?c thi công vi?c tính b?ng giây.

Trên ?ây là bài vi?t gi?i thi?u khái quát nh?t v? Apache Spark và nh?ng thành ph?n và l?i ích mà nó mang l?i khi b?n l?a ch?n s? d?ng cho công vi?c IT c?a mình. Hy v?ng, nh?ng gì chuyên m?c T?ng h?p c?a Casino VN138 mong r?ng b?n có th? tìm ki?m ???c nh?ng thông tin h?u ích có trong bài vi?t. 

Tham gia ngay nh?ng trò ch?i cá c??c ??y h?p d?n và có th? nh?n ???c nhi?u ph?n th??ng b?ng ti?n t?i Caisno VN138 ngay hôm nay b?n nhé. Chúng tôi là m?t nhà cái uy tín hàng ??u Vi?t Nam hi?n nay, b?n có th? xem thêm ? ph?n Gi?i thi?u.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

??ng ký ngay!