본문 바로가기
Tech Notes

Python 데이터 분석 4대 라이브러리 정리

by miracle-tech 2026. 1. 7.
728x90
반응형

Python으로 데이터 분석할 때 필수로 쓰는 라이브러리 4가지를 정리한다.

 
 
pandas     →  데이터 가공 (엑셀 역할)
numpy      →  수치 계산 (계산기 역할)
matplotlib →  시각화 (그래프 그리기)
seaborn    →  예쁜 시각화 (matplotlib 업그레이드)

설치

 
 
python
!pip install pandas==2.2.2
!pip install numpy==2.0.2
!pip install matplotlib
!pip install seaborn

1. pandas - 코드로 하는 엑셀/SQL

데이터를 표(DataFrame) 형태로 다루는 라이브러리. 엑셀을 코드로 조작한다고 생각하면 된다.

주요 기능

  • 데이터 읽기/쓰기 (CSV, Excel, JSON, DB)
  • 필터링, 정렬, 그룹화
  • 결측치 처리, 데이터 정제
  • 통계 계산, 집계
  • 테이블 합치기 (merge, join)
 
 
python

 

import pandas as pd

# CSV 읽기
df = pd.read_csv('data.csv')

# 필터링 (SQL의 WHERE)
df[df['age'] > 30]

# 그룹화 (SQL의 GROUP BY)
df.groupby('region')['sales'].sum()

# 정렬 (SQL의 ORDER BY)
df.sort_values('sales', ascending=False)

2. numpy - 빠른 숫자 계산

배열(array) 연산에 특화된 수학 라이브러리. 반복문 없이 대량 계산이 가능하다.

 
 
python
import numpy as np

# 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 한 번에 계산 (반복문 없이)
arr * 2        # [2, 4, 6, 8, 10]
arr.mean()     # 평균: 3.0
arr.std()      # 표준편차

3. matplotlib - 그래프의 기본

Python 시각화의 기본. 모든 종류의 그래프를 그릴 수 있다.

 
 
python
import matplotlib.pyplot as plt

# 바 차트
plt.bar(['서울', '부산', '대구'], [100, 80, 60])
plt.title('지역별 당첨 횟수')
plt.show()

# 선 그래프
plt.plot([1, 2, 3, 4], [10, 20, 25, 30])
plt.show()

4. seaborn - 예쁜 matplotlib

matplotlib 기반인데 더 예쁘고 간편하다. 통계적 시각화에 강점.

보너스: 샘플 데이터 내장 (Oracle의 SCOTT/TIGER 같은 것)

  • titanic - 타이타닉 생존자 데이터
  • tips - 레스토랑 팁 데이터
  • iris - 붓꽃 품종 데이터
 
 
python
import seaborn as sns

# 샘플 데이터 로드
tips = sns.load_dataset('tips')

# 예쁜 바 차트
sns.barplot(data=tips, x='day', y='total_bill')

# 히스토그램
sns.histplot(data=tips, x='total_bill')
```

## 라이브러리 관계도
```
numpy (숫자 계산)
   ↓
pandas (데이터 가공) → matplotlib (시각화)
                            ↓
                       seaborn (예쁜 시각화)

정리

라이브러리한 줄 정리비유
pandas 데이터 가공/분석 코드로 쓰는 엑셀
numpy 수치 계산 고속 계산기
matplotlib 기본 시각화 그래프 공장
seaborn 예쁜 시각화 matplotlib + 화장

 

사진: Unsplash 의 Javier Garcia Chavez

728x90