“Dữ liệu lớn- Big Data” thời gian gần đây ngày càng được nhắc đến nhiều hơn như một thành phần công nghệ thiết yếu của thành phố thông minh và cuộc cách mạng công nghiệp 4.0. Vậy dữ liệu lớn là gì? nó có phải là một khái niệm quá phức tạp?

Big Data là một thuật ngữ xuất hiện nhiều trong ngành công nghệ thông tin hiện nay. Vậy Big Data- Dữ liệu lớn là gì?

Về cơ bản dữ liệu lớn là gì? thì có thể hiểu nó đơn giản như tên gọi, Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường. Vì khối dữ liệu quá lớn nên việc triển khai Big Data sẽ gặp những trở ngại bao gồm thu nhận dữ liệu, lưu trữ dữ liệu, tìm kiếm, chia sẻ, chuyển giao, cập nhật…

Big Data hay dữ liệu lớn là thuật ngữ chỉ các data có 3 thuộc tính là: dữ liệu có kích thước lớn dữ liệu có tốc độ xử lý nhanh và dữ liệu có sự đa dạng.

Từ định nghĩa dữ liệu lớn là gì? ở trên chúng ta cần lưu ý 3 khía cạnh quan trọng của Big Data đó là:

  • Kích thước lớn (big volume): Dữ liệu có kích thước lớn có thể lên đến hàng ngàn tỉ Gigabyte hoặc thậm chí lớn hơn.
  • Tốc độ xử lý nhanh (velocity): Dữ liệu đảm bảo xử lý các thao tác như truy xuất, cập nhật, chỉnh sửa… với tốc độ nhanh.
  • Sự đa dạng trong dữ liệu (variety): Dữ liệu không cần tuân theo một cấu trúc và có thể lưu trữ nhiều định dạng khác nhau như văn bản, hình ảnh…

Dữ liệu chỉ đảm bảo được 1 hoặc 2 trong 3 thuộc tính trên thì chưa được coi là Big Data. Ví dụ có một số dữ liệu trong doanh nghiệp đảm bảo được kích thước lớn và sự đa dạng của dữ liệu nhưng lại có tốc độ xử lý dữ liệu chậm nên chưa được coi là Big Data.

Những nguồn chính tạo ra Big Data là gì?

  1. Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay.
  2. Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển bởi như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và Google+.
  3. Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng.
  4. Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng.
  5. Dữ liệu giao thông: dữ liệu này bao gồm sức chứa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông.
  6. Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm và đây cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần.

Những ứng dụng thực tế trong cuộc sống của dữ liệu lớn là gì?

Không phải ai cũng biết Big Data- Dữ liệu lớn là gì? và ứng dụng trong thực tế của nó như thế nào? Dưới đây là một vài ví dụ cụ thể để bạn biết được các ứng dụng của dữ liệu lớn là gì?

Y tế: giờ đây hồ sơ bệnh án đều được lưu trữ online, đó chính là nguồn tư liệu tham khảo vô cùng giá trị cho các bác sỹ, công ty y tế,…

Giáo dục: giờ đây với các khóa học online đang nở rộ, con đường khám phá tri thức đã dễ dàng hơn đối với mọi người và chi phí cho việc học tập đã giảm thiểu rất nhiều.

An ninh: với hệ thống Camera chống trộm đang ngày càng phổ biến như hiện nay đã góp phần rất lớn cho vấn đề an ninh trật tự xã hội.

An ninh mạng: các cuộc tấn công mạng, tấn công DDos gây ra hậu quả nghiêm trọng nhưng sau mỗi cuộc tấn công thì các nhà an ninh mạng đều thu được số lượng dữ liệu quan trọng để mỗi ngày đảm bảo an ninh mạng được tốt hơn.

Biến đổi khí hậu: các nhà khoa học khi nghiên cứu quá trình biến đổi khí hậu đều chia sẻ, cộng tác với nhau về quá trình cũng như kết quả nghiên cứu.

Internet Marketing: bạn lướt Facebook và vô tình thấy một quảng cáo trong đó sản phẩm quảng cáo rất phù hợp với bạn và bạn quyết định click vào mẫu quảng cáo đó. Việc làm đó của bạn được gọi thành quảng cáo thành công, là kết quả sau những giai đoạn thu thập thông tin người dùng từ Facebook nhằm nâng cao hiệu quả và tiết kiệm chi phí cho nhà quảng cáo.

Trên đây chỉ là một vài ví dụ về các ngành đang áp dụng Big Data. Tương tự, trong bất cứ lĩnh vực nào cũng có thể tìm ra các ứng dụng của Big Data phù hợp nhằm tăng chất lượng dịch vụ, năng suất lao động.

Hiện nay, ngoài dữ liệu lớn là gì? có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là mạng Internet đến với mọi thứ trong đời sống hằng ngày. Dữ liệu từ Internet of Things thực chất cũng là được thu thập từ một mạng lưới rất nhiều các cảm biến và thiết bị điện tử, và nó cũng là một trong những nguồn của Big Data.

Trong tương lai, con người chúng ta sẽ biết đến nhiều thứ hơn liên quan đến thuật ngữ về dữ liệu lớn là gì? và còn tiếp tục chứng kiến sự tăng trưởng của Big Data.Lượng dữ liệu khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu dùng của khách hàng, từ đó tinh chỉnh những thiết bị Internet of Things cho phù hợp hơn, bắt chúng phục vụ đời sống hằng ngày của chúng ta một cách hiệu quả hơn. Nó cũng có thể được dùng cho việc sản xuất, từ đó giảm sự liên quan của con người. Như lời của Daniel Kaufman dự đoán thì “con người sẽ làm ít hơn” nhờ Big Data.