Học tập thông minh

Vietnam Geography App

Khoa Học Dữ Liệu

Bắt Đầu với Khoa Học Dữ Liệu bằng Python

K2AiHub Team

ngày 14 tháng 09 năm 2025

18 phút đọc

Tại Sao Python là Lựa Chọn Hàng Đầu cho Khoa Học Dữ Liệu?

Python đã trở thành ngôn ngữ lập trình thống trị trong lĩnh vực khoa học dữ liệu nhờ vào cú pháp đơn giản, dễ đọc và một hệ sinh thái thư viện mạnh mẽ. Các thư viện như Pandas, NumPy, Matplotlib, và Scikit-learn cung cấp các công cụ cần thiết để xử lý mọi tác vụ từ làm sạch dữ liệu đến xây dựng các mô hình học máy phức tạp.

Bước 1: Thiết Lập Môi Trường Làm Việc

Cách tốt nhất để bắt đầu là sử dụng Anaconda, một bản phân phối Python đi kèm với hầu hết các thư viện khoa học dữ liệu phổ biến.

Tải và Cài Đặt Anaconda: Truy cập trang chủ Anaconda và tải về phiên bản phù hợp với hệ điều hành của bạn.
Tạo Môi Trường Mới (Tùy chọn nhưng khuyến khích): Mở Anaconda Prompt (hoặc terminal) và tạo một môi trường riêng cho dự án của bạn để tránh xung đột thư viện.
```
conda create -n datascience-env python=3.9
conda activate datascience-env
```

Cài Đặt Các Thư Viện Cần Thiết:

conda install pandas numpy matplotlib scikit-learn jupyter

Khởi Động Jupyter Notebook: Jupyter Notebook là một công cụ tuyệt vời để viết và thực thi code Python, trực quan hóa dữ liệu và ghi chú trong cùng một tài liệu.
```
jupyter notebook
```

Bước 2: Thu Thập và Khám Phá Dữ Liệu với Pandas

Pandas là thư viện không thể thiếu để làm việc với dữ liệu có cấu trúc. Chúng ta sẽ sử dụng nó để đọc, làm sạch và phân tích dữ liệu.

Giả sử chúng ta có một tệp sales.csv chứa dữ liệu bán hàng.

import pandas as pd

# Đọc dữ liệu từ file CSV vào một DataFrame
df = pd.read_csv('sales.csv')

# Hiển thị 5 dòng đầu tiên của dữ liệu
print(df.head())

# Xem thông tin tổng quan về dữ liệu (kiểu dữ liệu, giá trị non-null)
print(df.info())

# Xem các thống kê mô tả cơ bản (trung bình, độ lệch chuẩn, v.v.)
print(df.describe())

Bước 3: Làm Sạch Dữ Liệu

Dữ liệu trong thực tế hiếm khi hoàn hảo. Bạn sẽ cần xử lý các giá trị bị thiếu, các định dạng không nhất quán, hoặc các giá trị ngoại lai.

# Kiểm tra các giá trị bị thiếu
print(df.isnull().sum())

# Điền các giá trị bị thiếu bằng giá trị trung bình của cột
df['Revenue'].fillna(df['Revenue'].mean(), inplace=True)

# Xóa các dòng có giá trị bị thiếu
df.dropna(inplace=True)

# Chuyển đổi kiểu dữ liệu của một cột
df['Date'] = pd.to_datetime(df['Date'])

Bước 4: Trực Quan Hóa Dữ Liệu với Matplotlib

Trực quan hóa giúp bạn hiểu rõ hơn về dữ liệu và khám phá các mối quan hệ ẩn. Matplotlib và Seaborn là hai thư viện phổ biến cho việc này.

import matplotlib.pyplot as plt
import seaborn as sns

# Thiết lập style cho biểu đồ
sns.set(style="whitegrid")

# Vẽ biểu đồ đường thể hiện doanh thu theo thời gian
plt.figure(figsize=(12, 6))
sns.lineplot(x='Date', y='Revenue', data=df)
plt.title('Doanh Thu Bán Hàng Theo Thời Gian')
plt.xlabel('Ngày')
plt.ylabel('Doanh Thu')
plt.show()

# Vẽ biểu đồ cột so sánh doanh thu theo từng sản phẩm
plt.figure(figsize=(12, 6))
sns.barplot(x='Product', y='Revenue', data=df, estimator=sum)
plt.title('Tổng Doanh Thu Theo Sản Phẩm')
plt.xlabel('Sản Phẩm')
plt.ylabel('Tổng Doanh Thu')
plt.xticks(rotation=45)
plt.show()

Bước 5: Xây Dựng Mô Hình Học Máy với Scikit-learn

Cuối cùng, chúng ta sẽ sử dụng Scikit-learn để xây dựng một mô hình dự đoán. Ví dụ, dự đoán doanh thu dựa trên chi phí quảng cáo.

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Chọn các đặc trưng (features) và biến mục tiêu (target)
features = ['Advertising_Spend']
target = 'Revenue'

X = df[features]
y = df[target]

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo và huấn luyện mô hình hồi quy tuyến tính
model = LinearRegression()
model.fit(X_train, y_train)

# Đưa ra dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

# In ra hệ số của mô hình
print(f'Hệ số (Coefficient): {model.coef_[0]}')
print(f'Hằng số (Intercept): {model.intercept_}')

Khoa học dữ liệu là một hành trình khám phá. Bằng cách nắm vững các công cụ Python này, bạn đã có một nền tảng vững chắc để phân tích dữ liệu và rút ra những hiểu biết có giá trị.

Bắt Đầu với Khoa Học Dữ Liệu bằng Python

K2AiHub Team

ngày 14 tháng 09 năm 2025

18 phút đọc

Tại Sao Python là Lựa Chọn Hàng Đầu cho Khoa Học Dữ Liệu?

Bước 1: Thiết Lập Môi Trường Làm Việc

Cách tốt nhất để bắt đầu là sử dụng Anaconda, một bản phân phối Python đi kèm với hầu hết các thư viện khoa học dữ liệu phổ biến.

Tải và Cài Đặt Anaconda: Truy cập trang chủ Anaconda và tải về phiên bản phù hợp với hệ điều hành của bạn.
Tạo Môi Trường Mới (Tùy chọn nhưng khuyến khích): Mở Anaconda Prompt (hoặc terminal) và tạo một môi trường riêng cho dự án của bạn để tránh xung đột thư viện.
```
conda create -n datascience-env python=3.9
conda activate datascience-env
```

Cài Đặt Các Thư Viện Cần Thiết:

conda install pandas numpy matplotlib scikit-learn jupyter

Khởi Động Jupyter Notebook: Jupyter Notebook là một công cụ tuyệt vời để viết và thực thi code Python, trực quan hóa dữ liệu và ghi chú trong cùng một tài liệu.
```
jupyter notebook
```

Bước 2: Thu Thập và Khám Phá Dữ Liệu với Pandas

Pandas là thư viện không thể thiếu để làm việc với dữ liệu có cấu trúc. Chúng ta sẽ sử dụng nó để đọc, làm sạch và phân tích dữ liệu.

Giả sử chúng ta có một tệp sales.csv chứa dữ liệu bán hàng.

import pandas as pd

# Đọc dữ liệu từ file CSV vào một DataFrame
df = pd.read_csv('sales.csv')

# Hiển thị 5 dòng đầu tiên của dữ liệu
print(df.head())

# Xem thông tin tổng quan về dữ liệu (kiểu dữ liệu, giá trị non-null)
print(df.info())

# Xem các thống kê mô tả cơ bản (trung bình, độ lệch chuẩn, v.v.)
print(df.describe())

Bước 3: Làm Sạch Dữ Liệu

Dữ liệu trong thực tế hiếm khi hoàn hảo. Bạn sẽ cần xử lý các giá trị bị thiếu, các định dạng không nhất quán, hoặc các giá trị ngoại lai.

# Kiểm tra các giá trị bị thiếu
print(df.isnull().sum())

# Điền các giá trị bị thiếu bằng giá trị trung bình của cột
df['Revenue'].fillna(df['Revenue'].mean(), inplace=True)

# Xóa các dòng có giá trị bị thiếu
df.dropna(inplace=True)

# Chuyển đổi kiểu dữ liệu của một cột
df['Date'] = pd.to_datetime(df['Date'])

Bước 4: Trực Quan Hóa Dữ Liệu với Matplotlib

Trực quan hóa giúp bạn hiểu rõ hơn về dữ liệu và khám phá các mối quan hệ ẩn. Matplotlib và Seaborn là hai thư viện phổ biến cho việc này.

import matplotlib.pyplot as plt
import seaborn as sns

# Thiết lập style cho biểu đồ
sns.set(style="whitegrid")

# Vẽ biểu đồ đường thể hiện doanh thu theo thời gian
plt.figure(figsize=(12, 6))
sns.lineplot(x='Date', y='Revenue', data=df)
plt.title('Doanh Thu Bán Hàng Theo Thời Gian')
plt.xlabel('Ngày')
plt.ylabel('Doanh Thu')
plt.show()

# Vẽ biểu đồ cột so sánh doanh thu theo từng sản phẩm
plt.figure(figsize=(12, 6))
sns.barplot(x='Product', y='Revenue', data=df, estimator=sum)
plt.title('Tổng Doanh Thu Theo Sản Phẩm')
plt.xlabel('Sản Phẩm')
plt.ylabel('Tổng Doanh Thu')
plt.xticks(rotation=45)
plt.show()

Bước 5: Xây Dựng Mô Hình Học Máy với Scikit-learn

Cuối cùng, chúng ta sẽ sử dụng Scikit-learn để xây dựng một mô hình dự đoán. Ví dụ, dự đoán doanh thu dựa trên chi phí quảng cáo.

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Chọn các đặc trưng (features) và biến mục tiêu (target)
features = ['Advertising_Spend']
target = 'Revenue'

X = df[features]
y = df[target]

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo và huấn luyện mô hình hồi quy tuyến tính
model = LinearRegression()
model.fit(X_train, y_train)

# Đưa ra dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

# In ra hệ số của mô hình
print(f'Hệ số (Coefficient): {model.coef_[0]}')
print(f'Hằng số (Intercept): {model.intercept_}')

Bắt Đầu với Khoa Học Dữ Liệu bằng Python

Tại Sao Python là Lựa Chọn Hàng Đầu cho Khoa Học Dữ Liệu?

Bước 1: Thiết Lập Môi Trường Làm Việc

Bước 2: Thu Thập và Khám Phá Dữ Liệu với Pandas

Bước 3: Làm Sạch Dữ Liệu

Bước 4: Trực Quan Hóa Dữ Liệu với Matplotlib

Bước 5: Xây Dựng Mô Hình Học Máy với Scikit-learn

Bài viết liên quan

Hướng Dẫn Khoa Học Dữ Liệu: Kể Chuyện Từ Những Con Số

Hướng Dẫn Lập Trình Python: Từ "Hello World" Đến Ứng Dụng Đầu Tiên

Hướng Dẫn Python Cơ Bản Cho Người Mới Bắt Đầu

Bắt Đầu với Khoa Học Dữ Liệu bằng Python

Tại Sao Python là Lựa Chọn Hàng Đầu cho Khoa Học Dữ Liệu?

Bước 1: Thiết Lập Môi Trường Làm Việc

Bước 2: Thu Thập và Khám Phá Dữ Liệu với Pandas

Bước 3: Làm Sạch Dữ Liệu

Bước 4: Trực Quan Hóa Dữ Liệu với Matplotlib

Bước 5: Xây Dựng Mô Hình Học Máy với Scikit-learn

Bài viết liên quan

Hướng Dẫn Khoa Học Dữ Liệu: Kể Chuyện Từ Những Con Số

Hướng Dẫn Lập Trình Python: Từ "Hello World" Đến Ứng Dụng Đầu Tiên

Hướng Dẫn Python Cơ Bản Cho Người Mới Bắt Đầu