Nội dung chính
Xem Làm cách nào để vẽ dữ liệu lớn trong Python? 2024
Khi làm việc với dữ liệu, có thể khó thực sự hiểu dữ liệu của bạn khi dữ liệu chỉ ở dạng bảng. Để hiểu chính xác dữ liệu của chúng ta truyền tải điều gì, và để làm sạch dữ liệu tốt hơn cũng như chọn các mô hình phù hợp cho dữ liệu đó, chúng ta cần trực quan hóa hoặc biểu diễn dữ liệu đó ở dạng hình ảnh. Điều này giúp hiển thị các mẫu, mối tương quan và xu hướng không thể thu được khi dữ liệu ở dạng bảng hoặc tệp CSV
Quá trình tìm kiếm các xu hướng và mối tương quan trong dữ liệu của chúng tôi bằng cách biểu thị nó bằng hình ảnh được gọi là Trực quan hóa dữ liệu. Để thực hiện trực quan hóa dữ liệu trong python, chúng ta có thể sử dụng các mô-đun trực quan hóa dữ liệu python khác nhau như Matplotlib, Seaborn, Plotly, v.v. Trong bài viết này, Hướng dẫn đầy đủ về trực quan hóa dữ liệu trong Python, chúng ta sẽ thảo luận về cách làm việc với một số mô-đun này để trực quan hóa dữ liệu trong python và đề cập chi tiết đến các chủ đề sau
- Trực quan hóa dữ liệu là gì?
- Trực quan hóa dữ liệu trong Python
- Matplotlib và Seaborn
- Biểu đồ đường
- Đồ thị thanh
- biểu đồ
- Điểm phân tán
- Bản đồ nhiệt
Chương trình thạc sĩ chuyên gia trực quan hóa dữ liệu
Đưa ra quyết định dựa trên dữ liệu như một chuyên gia Bắt đầu học
Trực quan hóa dữ liệu là gì?
Trực quan hóa dữ liệu là một lĩnh vực trong phân tích dữ liệu liên quan đến biểu diễn trực quan của dữ liệu. Nó vẽ đồ thị dữ liệu và là một cách hiệu quả để truyền đạt các suy luận từ dữ liệu
Bằng cách sử dụng trực quan hóa dữ liệu, chúng tôi có thể nhận được bản tóm tắt trực quan về dữ liệu của mình. Với hình ảnh, bản đồ và đồ thị, tâm trí con người sẽ dễ dàng xử lý và hiểu bất kỳ dữ liệu nhất định nào. Trực quan hóa dữ liệu đóng một vai trò quan trọng trong việc biểu diễn cả tập dữ liệu nhỏ và lớn, nhưng nó đặc biệt hữu ích khi chúng ta có các tập dữ liệu lớn, trong đó không thể xem tất cả dữ liệu của chúng ta, chứ đừng nói đến việc xử lý và hiểu dữ liệu theo cách thủ công
Trực quan hóa dữ liệu trong Python
Python cung cấp một số thư viện vẽ biểu đồ, cụ thể là Matplotlib, Seaborn và nhiều gói trực quan hóa dữ liệu khác với các tính năng khác nhau để tạo các biểu đồ thông tin, tùy chỉnh và hấp dẫn để trình bày dữ liệu theo cách đơn giản và hiệu quả nhất
Hình 1. Trực quan hóa dữ liệu
Matplotlib và Seaborn
Matplotlib và Seaborn là các thư viện python được sử dụng để trực quan hóa dữ liệu. Họ có các mô-đun sẵn có để vẽ các biểu đồ khác nhau. Trong khi Matplotlib được sử dụng để nhúng biểu đồ vào ứng dụng, Seaborn chủ yếu được sử dụng cho biểu đồ thống kê
Nhưng khi nào chúng ta nên sử dụng một trong hai? . Bảng bên dưới cung cấp sự so sánh giữa hai gói trực quan hóa nổi tiếng của Python là Matplotlib và Seaborn
Matplotlib
sinh ra biển
Nó được sử dụng để vẽ biểu đồ cơ bản như biểu đồ đường, biểu đồ thanh, v.v.
Nó chủ yếu được sử dụng để trực quan hóa số liệu thống kê và có thể thực hiện các trực quan hóa phức tạp với ít lệnh hơn
Nó chủ yếu hoạt động với bộ dữ liệu và mảng
Nó hoạt động với toàn bộ bộ dữ liệu
Seaborn có tổ chức và chức năng hơn đáng kể so với Matplotlib và coi toàn bộ tập dữ liệu là một đơn vị duy nhất
Matplotlib hoạt động hiệu quả với các mảng và khung dữ liệu. Nó coi các con át chủ bài và các con số là đối tượng
Seaborn có nhiều chủ đề sẵn có hơn và chủ yếu được sử dụng để phân tích thống kê
Matplotlib có thể tùy chỉnh nhiều hơn và kết hợp tốt với Pandas và Numpy để Phân tích Dữ liệu Khám phá
Bảng 1. Matplotlib so với Seaborn
PCP trong AI và Máy học
Hợp tác với Đại học Purdue Khóa học khám phá
Biểu đồ đường
Biểu đồ đường là biểu đồ biểu thị thông tin dưới dạng một chuỗi các điểm dữ liệu được kết nối bằng một đường thẳng. Trong biểu đồ đường, mỗi điểm dữ liệu hoặc điểm đánh dấu được vẽ và kết nối bằng một đường hoặc đường cong.
Hãy xem xét năng suất táo (tấn trên ha) ở Kanto. Hãy vẽ biểu đồ đường bằng dữ liệu này và xem sản lượng táo thay đổi như thế nào theo thời gian. Chúng tôi bắt đầu bằng cách nhập Matplotlib và Seaborn
Hình 2. Nhập các mô-đun cần thiết
Sử dụng Matplotlib
Chúng tôi đang sử dụng các điểm dữ liệu ngẫu nhiên để biểu thị sản lượng táo.
Hình 3. Vẽ sơ đồ năng suất táo
Để hiểu rõ hơn về biểu đồ và mục đích của nó, chúng ta cũng có thể thêm các giá trị trục x
hinh 4. Giá trị trục
khóa học miễn phí. Giới thiệu về trực quan hóa dữ liệu
Biết các nguyên tắc và phát hiện về trực quan hóa dữ liệu Đăng ký ngay
Hãy thêm nhãn vào các trục để chúng tôi có thể hiển thị những gì mỗi trục đại diện.
Hình 5. Trục có nhãn
Để vẽ nhiều bộ dữ liệu trên cùng một biểu đồ, chỉ cần sử dụng lệnh plt. vẽ hàm một lần cho mỗi tập dữ liệu. Hãy sử dụng điều này để so sánh năng suất của táo với. cam trên cùng một biểu đồ
Hình 6. Vẽ nhiều đồ thị
Chúng ta có thể thêm chú thích cho chúng ta biết ý nghĩa của từng dòng trong biểu đồ. Để hiểu những gì chúng ta đang vẽ, chúng ta có thể thêm tiêu đề vào biểu đồ của mình
Hình 7. Vẽ nhiều đồ thị
Để hiển thị từng điểm dữ liệu trên biểu đồ của chúng tôi, chúng tôi có thể đánh dấu chúng bằng các điểm đánh dấu bằng cách sử dụng đối số điểm đánh dấu. Nhiều hình dạng điểm đánh dấu khác nhau như hình tròn, chữ thập, hình vuông, hình thoi, v.v. được cung cấp bởi Matplotlib
Hình 8. Sử dụng các điểm đánh dấu
Bạn có thể sử dụng plt. chức năng hình để thay đổi kích thước của hình
Hình 9. Thay đổi kích thước đồ thị
Sử dụng Seaborn
Một cách dễ dàng để làm cho biểu đồ của bạn trông đẹp mắt là sử dụng một số kiểu mặc định từ thư viện Seaborn. Chúng có thể được áp dụng trên toàn cầu bằng cách sử dụng sns. hàm set_style
Hình 10. Sử dụng Seaborn
Chúng ta cũng có thể sử dụng tùy chọn darkgrid để thay đổi màu nền thành màu tối hơn
Hình 11. Sử dụng darkgrid trong Seaborn
Đồ thị thanh
Khi bạn có dữ liệu phân loại, bạn có thể biểu thị dữ liệu đó bằng biểu đồ thanh. Biểu đồ thanh vẽ dữ liệu với sự trợ giúp của các thanh, biểu thị giá trị trên trục y và danh mục trên trục x. Biểu đồ thanh sử dụng các thanh có độ cao khác nhau để hiển thị dữ liệu thuộc về một danh mục cụ thể
Hình 12. Vẽ biểu đồ thanh
Chúng ta cũng có thể xếp chồng các thanh lên nhau. Hãy vẽ dữ liệu cho táo và cam
Hình 13. Vẽ biểu đồ thanh xếp chồng lên nhau
Hãy sử dụng bộ dữ liệu mẹo trong Seaborn tiếp theo. Bộ dữ liệu bao gồm
- Thông tin về giới tính (giới tính)
- Thời gian trong ngày
- Hóa đơn tổng cộng
- Tiền boa cho khách hàng ghé thăm nhà hàng trong một tuần
Hình 14. Bộ dữ liệu Iris
Chúng ta có thể vẽ biểu đồ thanh để hình dung số tiền hóa đơn trung bình thay đổi như thế nào qua các ngày khác nhau trong tuần. Chúng ta có thể làm điều này bằng cách tính toán mức trung bình trong ngày và sau đó sử dụng plt. quán ba. Thư viện Seaborn cũng cung cấp hàm barplot có thể tự động tính toán giá trị trung bình
Hình 15. Vẽ đồ thị trung bình của mỗi thanh
Học hỏi từ những người giỏi nhất trong ngành khoa học dữ liệu
Trại đào tạo về khoa học dữ liệu của Caltech Khóa học khám phá
Nếu bạn muốn so sánh các ô thanh cạnh nhau, bạn có thể sử dụng đối số hue. Việc so sánh sẽ được thực hiện dựa trên tính năng thứ ba được chỉ định trong đối số này
Hình 16. Vẽ nhiều biểu đồ thanh
Bạn có thể làm cho các thanh nằm ngang bằng cách chuyển đổi các trục
Hình 17. Vẽ biểu đồ thanh ngang
biểu đồ
Biểu đồ là biểu diễn dạng thanh của dữ liệu thay đổi trong một phạm vi. Nó vẽ biểu đồ chiều cao của dữ liệu thuộc phạm vi dọc theo trục y và phạm vi dọc theo trục x. Biểu đồ được sử dụng để vẽ dữ liệu trên một loạt các giá trị. Họ sử dụng biểu diễn thanh để hiển thị dữ liệu thuộc từng phạm vi. Hãy sử dụng lại dữ liệu ‘Iris’ chứa thông tin về hoa để vẽ biểu đồ
Hình 18. bộ dữ liệu mống mắt
Bây giờ, hãy vẽ một biểu đồ bằng cách sử dụng hàm hist()
Hình 19. Vẽ biểu đồ
Chúng tôi cũng có thể kiểm soát số lượng hoặc kích thước của thùng
Hình 20. Thay đổi số lượng thùng
khóa học miễn phí. Python cho người mới bắt đầu
Nắm vững kiến thức cơ bản về Python Đăng ký ngay
Chúng tôi cũng có thể thay đổi số lượng và kích thước của thùng bằng cách sử dụng numpy
Hình 21. Thay đổi số lượng và kích thước của thùng
Chúng tôi cũng có thể tạo các thùng có kích thước không bằng nhau
Hình 22. Thùng có kích thước không bằng nhau
Tương tự như biểu đồ đường, chúng ta có thể vẽ nhiều biểu đồ trong một biểu đồ. Chúng tôi có thể giảm độ mờ của từng biểu đồ sao cho các thanh của biểu đồ này không ẩn các thanh khác’. Hãy vẽ biểu đồ riêng cho từng loài hoa
Hình 23. Nhiều biểu đồ
Nhiều biểu đồ có thể được xếp chồng lên nhau bằng cách đặt tham số xếp chồng thành True
Hình 24. Biểu đồ xếp chồng
Điểm phân tán
Biểu đồ phân tán được sử dụng khi chúng ta phải vẽ hai hoặc nhiều biến có mặt ở các tọa độ khác nhau. Dữ liệu nằm rải rác khắp biểu đồ và không bị giới hạn trong một phạm vi. Hai hoặc nhiều biến được vẽ trong Biểu đồ phân tán, với mỗi biến được biểu thị bằng một màu khác nhau. Hãy sử dụng tập dữ liệu ‘Iris’ để vẽ Biểu đồ phân tán
Hình 25. Bộ dữ liệu Iris
Đầu tiên, hãy xem chúng ta có bao nhiêu loài hoa khác nhau
Hình 26. Loài hoa độc đáo
Hãy thử vẽ dữ liệu với sự trợ giúp của biểu đồ đường
Hình 27. Vẽ biểu đồ đường
Đây không phải là rất nhiều thông tin. Chúng tôi không thể tìm ra mối quan hệ giữa các điểm dữ liệu khác nhau
Hình 28. âm mưu phân tán
Điều này tốt hơn nhiều. Nhưng chúng tôi vẫn không thể phân biệt các điểm dữ liệu khác nhau thuộc các danh mục khác nhau. Chúng ta có thể tô màu các chấm bằng cách sử dụng các loài hoa làm màu sắc
Hình 29. Biểu đồ phân tán với nhiều màu sắc
Vì Seaborn sử dụng các hàm vẽ đồ thị Matplotlib trong nội bộ nên chúng ta có thể sử dụng các hàm như plt. hình và plt. tiêu đề để sửa đổi hình
Hình 30. Thay đổi kích thước của biểu đồ phân tán
Khóa đào tạo Python
Tìm hiểu về thao tác dữ liệu trong Python Khám phá khóa học
Bản đồ nhiệt
Bản đồ nhiệt được sử dụng để xem các thay đổi trong hành vi hoặc thay đổi dần dần trong dữ liệu. Nó sử dụng các màu khác nhau để thể hiện các giá trị khác nhau. Dựa trên cách các màu này có màu sắc, cường độ, v.v. , cho chúng ta biết hiện tượng thay đổi như thế nào. Hãy sử dụng bản đồ nhiệt để hình dung lượng hành khách hàng tháng tại một sân bay trong hơn 12 năm từ bộ dữ liệu chuyến bay trong Seaborn
Hình 31. tập dữ liệu chuyến bay
Bộ dữ liệu trên, Flights_df cho chúng ta thấy lượng khách hàng tháng đến một sân bay trong mỗi năm, từ 1949 đến 1960. Các giá trị đại diện cho số lượng hành khách (tính bằng nghìn) đã đi qua sân bay. Hãy sử dụng bản đồ nhiệt để trực quan hóa dữ liệu trên
Hình 32. Vẽ sơ đồ nhiệt
Màu càng sáng, lượng người đến sân bay càng cao. Bằng cách nhìn vào biểu đồ, chúng ta có thể suy ra rằng.
- Lượng khách hàng năm cho bất kỳ năm nào cao nhất vào khoảng tháng 7 và tháng 8
- Lượng khách tăng hàng năm. Bất kỳ tháng nào trong năm sẽ có lượng khách hàng cao hơn so với các năm trước
Hãy hiển thị các giá trị thực tế trong bản đồ nhiệt của chúng tôi và thay đổi màu sắc thành màu xanh lam.
Hình 33. Vẽ sơ đồ nhiệt với các giá trị
Làm chủ Deep Learning, Machine Learning và các ngôn ngữ lập trình khác với Chương trình Thạc sĩ Kỹ sư Trí tuệ Nhân tạo
Phần kết luận
Trong bài viết này, Hướng dẫn đầy đủ về trực quan hóa dữ liệu trong Python, chúng tôi đã giới thiệu tổng quan về trực quan hóa dữ liệu trong python và thảo luận cách tạo Biểu đồ đường, Biểu đồ thanh, Biểu đồ, Biểu đồ phân tán và Bản đồ nhiệt bằng các gói trực quan hóa dữ liệu khác nhau do Python cung cấp như .
Nếu bạn cần làm rõ thêm hoặc muốn tìm hiểu thêm về trực quan hóa dữ liệu trong Python và muốn hiểu cách thực hiện trực quan hóa dữ liệu, hãy chia sẻ truy vấn của bạn với chúng tôi bằng cách đề cập đến chúng trong phần nhận xét của trang này. Chúng tôi sẽ có các chuyên gia của chúng tôi xem xét chúng sớm nhất
Python cung cấp nhiều gói trực quan hóa khác có thể được sử dụng để tạo các loại trực quan hóa khác nhau chứ không chỉ biểu đồ và sơ đồ. Do đó, điều quan trọng là phải hiểu những thách thức và lợi thế của các thư viện khác nhau và cách sử dụng chúng để phát huy hết tiềm năng của chúng. Hãy xem khóa học Trí tuệ nhân tạo của Simplilearn để nắm vững các khái niệm chính bao gồm Khoa học dữ liệu với Python, Học máy, Học sâu, NLP, v.v. Mục tiêu của khóa học này là giúp bạn sẵn sàng cho công việc và đảm bảo thành công trong sự nghiệp của bạn
Giới thiệu về tác giả
Ravikiran AS
Ravikiran A S làm việc với Simplilearn với tư cách là Nhà phân tích nghiên cứu. Anh ấy là một người đam mê nhiệt tình, luôn săn lùng những công nghệ mới nhất. Anh ấy thành thạo Ngôn ngữ lập trình Java, Dữ liệu lớn và các Khung dữ liệu lớn mạnh mẽ như Apache Hadoop và Apache Spark
Biểu đồ nào là tốt nhất cho các tập dữ liệu lớn?
Biểu đồ phân tán là tốt nhất để hiển thị phân phối trong tập dữ liệu lớn.Python có thể xử lý dữ liệu lớn không?
Python cung cấp một số lượng lớn thư viện để hoạt động trên Dữ liệu lớn . Bạn cũng có thể làm việc – về mặt phát triển mã – sử dụng Python cho Dữ liệu lớn nhanh hơn nhiều so với bất kỳ ngôn ngữ lập trình nào khác. Hai khía cạnh này đang cho phép các nhà phát triển trên toàn thế giới sử dụng Python làm ngôn ngữ được lựa chọn cho các dự án Dữ liệu lớn.
Bạn đang tìm hiểu bài viết: Làm cách nào để vẽ dữ liệu lớn trong Python? 2024
HỆ THỐNG CỬA HÀNG TRÙM SỈ QUẢNG CHÂU
Điện thoại: 092.484.9483
Zalo: 092.484.9483
Facebook: https://facebook.com/giatlathuhuongcom/
Website: Trumsiquangchau.com
Địa chỉ: Ngõ 346 Nam Dư, Trần Phú, Hoàng Mai, Hà Nội.