trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Hãy chọn chart đúng (Phần 1)

Trong việc trực quan hóa dữ liệu, đâu là cách để lựa chọn biểu đồ, đồ thị đúng? Lựa chọn đúng từ ban đầu sẽ dẫn dắt những quyết định sau đó suôn mượt hơn rất nhiều.

Việc biến số liệu và công thức tính toán khô khan thành câu chuyện dễ hiểu, đa chiều, nhiều ý nghĩa là cả một nghệ thuật – nghệ thuật trực quan hóa dữ liệu.

Và để làm được điều đó, bạn cần chọn đúng loại biểu đồ thích hợp để khiến cho dữ liệu của bạn biết “nói”.

Data visualization – trực quan hóa dữ liệu là gì?

Trực quan hóa dữ liệu là sự thể hiện dữ liệu hoặc thông tin thông qua biểu đồ, đồ thị hoặc các loại định dạng trực quan khác. Và nó truyền đạt mối quan hệ của dữ liệu với hình ảnh.

Ngoài ra, trực quan hóa dữ liệu còn là một hình thức nghệ thuật thị giác thu hút sự quan tâm và giúp bạn để mắt đến thông điệp dễ dàng hơn.

Xem thêm : Xây dựng Dashboard theo ý muốn

Vậy công việc trực quan hóa dữ liệu là gì?

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Có thể gọi ngắn gọn đó là sự kết hợp giữa “Data + Design”.

Trong Designing Data Visualizations: Representing Informational Relationships, hai tác giả Julie Steele và Noah Iliinsky có mô tả:

Vai trò chính của trực quan hóa dữ liệu là chuyển thể thông tin giữa 2 điểm A và B.

Trong đó nếu điểm A là Dataset (dữ liệu) và B là Designer Mindset (tư duy nhà thiết kế) thì được gọi là quá trình “Exploratory visualization“ (khám phá trực quan hóa).

Tiếp theo, nếu A là Designer Mind  và B là Mind of reader (tâm trí người đọc)  thì gọi là “Explanatory visualization” (giải thích trực quan hóa).

Vậy, suy tới mục tiêu cuối cùng là khiến người đọc dễ dàng tiếp thu được thông tin cần truyền tải thông qua các công cụ phù hợp nhất định.

Data-driven result without hiring IT – Lựa chọn của doanh nghiệp khi không có đội ngũ IT.

Trong kỷ nguyên Big data, thị trường lao động trình độ CNTT khan khiếm. Các doanh nghiệp, đặc biệt là Startup và SME có xu hướng lựa chọn công cụ với mức chi phí hợp lý để tối ưu dữ liệu có được.

Ngày nay, có rất nhiều công cụ và phần mềm hỗ trợ trực quan hóa dữ liệu và nó không ngừng tăng lên với nhiều gói dịch vụ và chi phí khác nhau.

Hơn hết, lượng dữ liệu thu thập được càng ngày càng lớn trong kỉ nguyên số (Big data). Nguồn tài nguyên khổng lồ và đầy đủ này đã giúp mỗi doanh nghiệp có thể lấy ra được bất kỳ thông điệp insight nào họ muốn.

Công nghệ phần mềm khiến cho việc trực quan hóa dữ liệu có vẻ trở nên dễ dàng hơn. Và trực quan hóa dữ liệu cũng khiến lượng dữ liệu khổng lồ trở nên đáng giá hơn bao giờ hết.

Nhưng có thực sự như vậy ???

Vì có quá nhiều thông tin, quá nhiều công cụ không khiến việc chia sẻ kiến thức trở nên dễ dàng hơn, nó khiến mọi thứ rắc rối hơn.

Bạn cũng đã chiêm nghiệm điều này, khi mà bây giờ mỗi lần research thông tin nào đó mạng. Bạn từ quá tin thành không tin, nghi ngờ sinh ra không phải vì thiếu thông tin mà là quá dư.

Bây giờ, việc chọn lọc cần bạn phải có kỹ năng và kiến thức để biến mục tiêu của bạn từ suy nghĩ thành hiện thực.

Với việc trực quan hóa dữ liệu. Nó yêu cầu việc chọn lọc thông tin cơ bản và quan trọng, lựa chọn công cụ thích hợp, lựa chọn cách thức, đồ thị, mô hình biểu diễn phù hợp.

Quan trọng nhất tất cả dựa trên yếu tố bắt đầu mọi thứ là “bạn muốn truyền tải thông điệp gì, bạn muốn trực quan hóa dữ liệu nào và kể câu chuyện gì”

Làm sao chọn Chart đúng để trực quan hóa dữ liệu?

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Bài viết này sẽ chia sẻ kiến thức và phương pháp cơ bản nhất giúp bạn hiểu và lựa chọn hiệu quả trong việc trực quan hóa dữ liệu.

Lần lượt bài viết sẽ giới thiệu qua 3 tiêu đề chính (có thể coi là 3 cách tiếp cận khi bạn muốn lựa chọn đồ thị, biểu đồ):

  • 4 cách cơ bản được sử dụng để trực quan hóa dữ liệu
  • Tips cho các loại biểu đồ, đồ thị phổ biến trong lĩnh vực kinh doanh, marketing
  • Xây dựng insight từ data dựa trên mô hình kim tự tháp DIKW (data -> knowledge -> action -> wisdom)

_______________________________________________________

Đầu tiên, cùng chia sẻ cách tiếp cận thứ 1 nhé!

Câu hỏi “Chọn biểu đồ hoặc đồ thị nào phù hợp nhất cho dữ liệu của bạn” hãy đơn giản thành “làm sao để đưa ra lựa chọn phù hợp”.

Từ đó nghĩ tới mô hình đơn giản nhất “ Question – Goal – Outcome”.

Trong mô hình trên, kết quả phụ thuộc vào mục tiêu của bạn. Vậy hãy bắt đầu với “ Mục tiêu” nhé!

Theo nghiên cứu, trong việc trực quan hóa dữ liệu sẽ xuất hiện 4 mục tiêu chính như sau:

  1. Biểu thị các giá trị so sánh với nhau như thế nào
  2. Biểu thị sự phân bố các giá trị
  3. Biểu thị mối quan hệ giữa các giá trị
  4. Biểu thị tỷ trọng thành phần giữa các giá trị

Trong quyển sách “Advanced Presentations by Design” của Dr. Andrew Abela, có một biểu đồ diagram với tựa đề “Chart Suggestion—A Thought Starter” được xem là một phương pháp hướng dẫn cơ bản cho việc lựa chọn đúng loại biểu đồ, đồ thị.

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

4 cách cơ bản được sử dụng để trình bày dữ liệu:

  • So sánh
  • Mối quan hệ
  • Phân phối
  • Tỉ trọng thành phần

Bên cạnh đó, trừ khi bạn là nhà thống kê hoặc nhà phân tích dữ liệu. Thì phần lớn, bạn chỉ sử dụng hai loại phân tích dữ liệu được sử dụng phổ biến nhất: So sánh hoặc tỉ trọng thành phần.

Tiếp theo, nói rõ hơn về 4 tính chất này nhé.

So sánh – Comparison

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Hầu hết các biểu đồ được tạo ra nhằm mục đích so sánh dữ liệu. Vì chức năng so sánh giúp bạn hình dung được bức tranh lớn về các dữ liệu.

Loại  này được chia thành hai phần, so sánh giữa các mục tiêu trong cùng một thời điểm cụ thể và so sánh thay đổi qua thời gian.

Thông thường các phép so sánh được dùng để thực hiện một trong các mục tiêu sau:

  • So sánh hai hoặc nhiều giá trị cạnh nhau để nắm bắt trực quan sự khác biệt
  • Liệt kê các giá trị chính để nhanh chóng tìm và đọc chúng (ví dụ: doanh thu mỗi tháng)
  • Xếp hạng nhiều loại dữ liệu tốt nhất đến mức tồi tệ nhất và những dữ liệu xung quanh
  • Hiển thị nhận dạng mẫu bằng cách làm nổi bật các khoảng trống, điểm dị biệt (outlier) hoặc xu hướng

Cụ tỉ ví dụ biểu đồ so sánh dữ liệu thường thể hiện:

  • Doanh thu hàng năm cho các dòng sản phẩm chính từ năm trước, để biết sản phẩm nào hoạt động tốt nhất và sản phẩm nào đang lao xuống dốc.
  • Tổng số khách truy cập mỗi tháng, được nhóm theo loại nguồn traffic, để xem hầu hết khách truy cập đến từ đâu và đặt nhiều nỗ lực hơn.
  • Doanh số sản phẩm hàng quý (tính theo đơn vị bán hoặc doanh thu) cho một sản phẩm cụ thể, để phát hiện các xu hướng theo mùa hoặc các vấn đề về hiệu suất.
  • Số bệnh nhân hen suyễn theo thành phố, nêu bật các tác động môi trường và dấu hiệu nguy cơ mắc bệnh hen suyễn ở trẻ em.

Các loại đồ thị, biểu đồ được dùng để biểu thị dữ liệu so sánh:

So sánh giữa các mục tiêu

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Trong đó phổ biến là bar chart, column chart.

So sánh theo dòng thời gian

Trong đó phổ biến là multiple line chart, line chart.

Mối quan hệ – Relationship

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Mục đích của biểu đồ là hiển thị mối quan hệ giữa các biến của dữ liệu hoặc suy ra một số sự tương quan về mối quan hệ giữa hai hay nhiều biến.

Ví dụ, bạn sẽ thường sử dụng biểu đồ, đồ thị trực quan cho mối quan hệ khi cần:

  • Ước tính chi phí tiếp thị ảnh hưởng đến doanh thu và lợi nhuận.
  • Phát hiện sai sót đánh giá hiệu quả bằng cách đánh giá chi phí so với thu nhập theo cửa hàng hoặc khu vực.
  • Trả lời các câu hỏi như, “Mức thu nhập có phụ thuộc vào IQ không?”  hoặc “Sinh viên tốt nghiệp trường kinh doanh hàng đầu kiếm được nhiều tiền hơn trong sự nghiệp của họ không?”
  • Mối quan hệ giữa doanh số sản phẩm, giá sản phẩm, tỷ lệ phần trăm trong tổng số doanh thu

Các loại đồ thị, biểu đồ được dùng để biểu thị mối quan hệ:

Phổ biến là các biểu đồ Scatter plot cho 2 biến, bubble cho 3 biến.

Phân phối – Distribution

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Biểu đồ phân phối kết hợp chức năng so sánh và tỷ trọng thành phần.

Nó có thể giúp bạn xem phổ dữ liệu đầy đủ và trực quan hóa các điểm dữ liệu liên quan hoặc không liên quan.

Với biểu đồ này, bạn có thể thấy các mối tương quan mối tương quan, xu hướng, mô hình, hình dạng, cụm, điểm trung bình hoặc điểm dị biệt.

Một tập hợp con rất phổ biến của phân tích phân phối thường được sử dụng trong báo cáo kinh doanh là phân tích Độ lệch hoặc Phương sai.

Các phương thức này cho phép bạn xem giá trị nào lệch khỏi định mức.

Hiểu độ lệch từ mục tiêu, ngân sách hoặc tốc độ tăng trưởng là một yêu cầu phổ biến ở hầu hết mọi công ty.

Ví dụ bạn sẽ thường dùng biểu đồ phân phối khi cần:

  • Hình dung sự phân bố độ tuổi trong một nhóm người
  • Hình dung mối tương quan giữa nguyên nhân và kết quả
  • Lỗi phát sinh hoặc các yếu tố ràng buộc trong hệ thống kiểm soát sản xuất hoặc chất lượng
  • Hình dung doanh số bán hàng trong các cửa hàng khác nhau, để phát hiện ra những hoạt động tốt nhất và kém nhất

Các loại đồ thị, biểu đồ được dùng để biểu thị phân phối:

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Phổ biến là các biểu đồ, đồ thị như:

Column histogram thường dành cho một biến và phân phối rời rạc, ví dụ như phân phối lượng sản phẩm bán ra theo mỗi giờ trong một ngày để đo lường khung giờ cao điểm.

Line histogram cũng dành cho phân phối một biến nhưng là phân phối liên tục.

Scatter plot thường dành cho 2 biến trở lên và phân phối phân tán, dựa vào đó để kiểm tra mối tương quan và xây dựng mô hình dự đoán.

Tỷ trọng thành phần – Composition

trực quan hóa dữ liệu, chọn biểu đồ, đồ thị

Xếp sau biểu đồ biểu thị so sánh là tỷ trọng thành phần về mức phổ biến sử dụng.

Ý tưởng cho tính chất phân phối là biểu thị cách thức các phân phối nhỏ, riêng lẻ kết hợp thành một tổng thể. Hoặc người lại, một tổng thể sẽ được chia nhỏ thành nhiều thành phần từ đó nổi bật lên giá trị một thành phần so với tổng thể.

Ví dụ bạn sẽ thường gặp loại biểu đồ này khi xem xét về:

  • Thị phần của công ty và một vài đối thủ khác ngang tầm trên thị trường
  • Tổng dân số quốc gia theo các tôn giáo, ngôn ngữ hoặc nhóm dân tộc hàng đầu
  • Tổng doanh thu theo đầu người, các dòng sản phẩm, bộ phận hoặc khu vực TOP

Các loại đồ thị, biểu đồ được dùng để biểu thị tỷ trọng thành phần:

Phổ biến là biểu đồ cột xếp chồng ví dụ như cấu trúc chi phí cấu thành 1 sản phẩm, biểu vùng xếp chồng ví dụ như tỷ lệ thành phần không khí trong một khung vực nhất định.

Lựa chọn đồ thị, biểu đồ nào?

Trừ khi bạn là nhà thống kê hoặc nhà phân tích dữ liệu, rất có thể bạn sẽ thường xuyên sử dụng hai loại phân tích dữ liệu được sử dụng phổ biến nhất: So sánh hoặc tỉ trọng thành phần.

Để xác định biểu đồ nào phù hợp nhất, trước tiên bạn phải trả lời một vài câu hỏi sau:

  • Bạn muốn hiển thị bao nhiêu biến trong một biểu đồ? Một, hai, ba, nhiều?
  • Có bao nhiêu mục (điểm dữ liệu) bạn sẽ hiển thị cho mỗi biến? Chỉ một vài hay nhiều?
  • Bạn sẽ hiển thị các giá trị trong một khoảng thời gian, hoặc giữa các nhóm?

Ví dụ, biểu đồ thanh (Bar chart) phù hợp nhất để so sánh, trong khi biểu đồ đường (Line chart) thể hiện xu hướng hiệu quả nhất. 

Biểu đồ phân tán (Scatter plot) thể hiện tốt nhất các mối quan hệ và phân phối, trong khi biểu đồ tròn (Pie chart) chỉ nên được sử dụng để thể hiện các tỉ trọng thành phần đơn giản và không bao giờ dùng để so sánh hoặc thể hiện phân phối.

Phần 2 sẽ chia sẻ các tips khi sử dụng một số loại biểu đồ, đồ thị phổ biến.

Nguồn:

https://www.techprevue.com/decision-tree-perfect-visualisation-data/

Xem thêm: Công cụ tổng hợp và trực quan hóa dữ liệu hàng đầu Việt Nam