파이썬 pandas 모듈 배우기

데이터를 정리해 놓기 위해서는 엑셀과 같이 행과 열로 된 문서에 저장을 해놓을 필요가 있었다.

파이썬에서 변수 안에 리스트 형태로 저장된 데이터는 프로그램이 종료되면 사라지게 되기 때문이다.

검색을 해보았더니 파이썬으로 엑셀을 다룰 수 있도록 해주는 모듈이 있지만,

그 보다 간단하게 csv라는 파일 형태로 데이터 프레임을 만들어 주는 pandas라는 모듈이 있었다.

추후 사용할 수 있도록 사용법을 간단하게 정리해놓도록 하겠다.

#판다스 가져오기

import pandas as pd

# csv파일 불러와서 변수에 담기, index_col을 정할 수 있다. , 인코딩을 utf-8으로 해줘야 한글이 깨지지 않는다.

data = pd.read_csv("파일명.csv", index_col=0, encoding = 'utf-8')

# 행 추가하기, 인덱스 무시

data = data.append({'열이름1': '열에 들어갈 내용1', '열이름2':'열에 들어갈 내용2}, ignore_index=True)

# csv파일로 저장하기, #quoting 쌍따옴표 없애기

data.to_csv("test.csv", quoting=csv.QUOTE_NONE)

# 판다스 행과 열 선택하기(블로그 참조)

pandas 데이터 프레임 만들기

특정한 행이나 열에 조건을 달아 만족하는 행이나 열만 선택하여 데이터를 추출할 수 있습니다.

isin()

필터링을 해야 하는 경우에 사용합니다.

print(df[df.A > 0]) # 'A'열에서 0보다 큰 값을 가진 행 출력

print(df[df > 0] # 전체 열에서 0이상의 값을 가진 행 출력

print(df['E'] = ['one', 'one','two','three','four','three']) # df에 'E'열 추가

print(df[df['E'].isin(['two', 'four'])]) # 'E'열에서 'two', 'four'을 가지고 있는 행 출력