값 수정하기

from pandas import *

data = [1000, 2000, 3000]
index = ["메로나", "구구콘", "하겐다즈"]
s = Series(data=data, index=index)

print(s)

# 값 수정
s.iloc[0] = 0
s.loc['구구콘'] = 0
s['하겐다즈'] = 0

print(s)

 

값 삭제하기

drop 메서드는 원본 데이터가 변경되는 것을 방지하기 때문에 시리즈 원본 데이터를 제거하지 않고, 새로운 시리즈 객체를 반환한다.

따라서 변수에 다시 바인딩해야 한다.

# 값 삭제
s = s.drop('메로나')
s = s.drop(['구구콘', '하겐다즈']) # 여러 개 삭제

print(s)

 

값 추가하기

loc[]나 concat() 방법을 가장 많이 사용한다.

# 값 추가
s['new1'] = 1
s.at["new2"] = 2
s.loc["new3"] = 3
s = concat([s, Series([4], index=["new4"])])

print(s)

iloc (정수 위치 기반 인덱싱)

정수 기반으로 데이터를 선택한다.

리스트처럼 0부터 시작하는 정수 인덱스를 사용한다.

슬라이싱(:)을 활용하여 여러 개의 값을 선택할 수 있다.

 

loc (라벨 기반 인덱싱)

인덱스(라벨) 값을 기준으로 데이터를 선택한다.

숫자가 아닌 문자열 등 사용자 지정 인덱스를 사용한다.

범위를 지정할 때 끝값까지 포함한다. (iloc와 차이점)

 

인덱싱(indexing)과 슬라이싱(slicing)의 차이

pandas.Series나 pandas.DataFrame에서 데이터를 선택하는 방법은 크게 두 가지가 있다.

  1. 인덱싱: 하나의 값 또는 여러 개의 개별 값을 선택
  2. 슬라이싱: 연속된 범위의 값을 선택
import pandas as pd

data = [100, 200, 300]
index = ["월", "화", "수"]
s = pd.Series(data, index)

print(s.iloc[0]) # 100
print(s.iloc[1]) # 200
print(s.iloc[2]) # 300
print(s.iloc[3]) # IndexError

print(s.iloc[-1]) # 300
print(s.iloc[-2]) # 200
print(s.iloc[-3]) # 200
print(s.iloc[-4]) # IndexError

print(s.loc["월"]) # 100
print(s.loc["화"]) # 200
print(s.loc["수"]) # 300

# 인덱싱 (개별 값)
print(s.iloc[[0, 2]]) # 월 100 수 300
print(s.loc[["월", "수"]]) # 월 100 수 300

# 슬라이싱 (범위)
print(s.iloc[0:2]) # 월 100 화 200
print(s.loc["월":"화"]) # 월 100 화 200

Series

pandas.Series는 1차원 배열 형태의 데이터 구조고, 인덱스(index)와 값(value)으로 구성된 자료형이다.

 

주요 특징

  • 인덱스와 값으로 구성된다. 기본적으로 0부터 시작하는 정수형 인덱스가 자동 할당되지만, 직접 지정할 수도 있다.
  • 동일한 데이터 타입을 가진다. NumPy 배열(numpy.ndarray)과 유사하지만, 인덱스를 활용할 수 있다.
  • 딕셔너리와 비슷한 구조이다. 키(key) = 인덱스, 값(value) = 데이터 라고 생각하면 이해하기 쉽다.

 

기본 시리즈 생성 방법

import pandas as pd

data = ['가', '나', '다', '라'] # type = list
s = pd.Series(data) # type = pandas.core.series.Series

print(s)

 

자동 생성되는 정수형 인덱스가 아닌 별도로 지정할 수 있다.

from pandas import Series

data = [100, 200, 300]
index = ["월", "화", "수"]
s = Series(data, index)

print(s)

 

인덱스를 별도의 변수명으로 지정해도 된다.

from pandas import Series

name = ["메로나", "누가바", "빠삐코"] # data = name
price = [500, 800, 200] # index = price
menu = Series(name, price)

print(menu)

+ Recent posts