python
-
[DAYCON] 타이타닉 생존자 예측python/오늘의 파이썬 2021. 11. 24. 14:47
1. 라이브러리 및 데이터 라이브러리 불러오기 import pandas as pd #판다스 패키지 불러오기 from sklearn.linear_model import LogisticRegression # 로지스틱 회귀 모델 불러오기 from sklearn.tree import DecisionTreeClassifier # 의사결정 나무 모델 불러오기 data 불러오기(pd.read_csv()) train = pd.read_csv('/media/train.csv')# 모델 학습 파일 test = pd.read_csv('/media/test.csv')# 모델 시험지 파일 submission = pd.read_csv('/media/submission.csv') #답안지 파일 2. 탐색적 자료분석 pd.DataF..
-
[DAYCON][오늘의 파이썬] Lv4 교차검증과 모델 앙상블을 활용한 와인 품질 분류하기python/오늘의 파이썬 2021. 11. 22. 16:17
[EDA] 1. seaborn pairplot pairplot은 데이터에 들어 있는 각 컬럼(열)들의 모든 상관관계를 출력한다. 3차원 이상의 데이터라면 pairplot 함수를 사용해 분포도를 그려서 쉽게 모든 변수 간의 상관관계를 얻을 수 있다. pairplot은 grid(격자) 형태로 각 집합의 조합에 대해 히스토그램과 분포도를 그려준다. 'data' 변수에 train의 "fixed acidity"부터 "chlorides"까지의 변수를 저장한다. data = train.loc[:, 'fixed acidity' : 'chlorides'] 'data'의 pairplot을 그린다. sns.pairplot(data) 2. seaborn distplot distplot 함수는 데이터의 히스토그램을 그려준다. ..
-
[DAYCON][오늘의 파이썬] Lv3. 교차검증과 LGBM 모델을 활용한 와인 품질 분류하기python/오늘의 파이썬 2021. 11. 13. 15:10
이번 챕터에서는 딥러닝 모델로 와인의 품질을 예측해볼 것이다. [EDA] 1. read_csv(), info(), shape(), head() 먼저 가장 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기, 데이터 피쳐 알아보기를 진행한다. read_csv() 메서드를 사용해서 csv 파일을 Pandas DataFrame class로 불러온다. train = pd.read_csv('data/train.csv') info() 매서드를 사용하여 데이터의 피쳐수와 칼럼명, 결측치 여부, Dtype에 대한 정보를 알아낸다. train.info() shape 어트리뷰트를 사용해 데이터의 행갯수, 열 개수를 출력해 데이터의 크기를 파악한다. train.shape head() 매서드를 통해 데이터..
-
[DAYCON][오늘의 파이썬] Lv.2 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기python/오늘의 파이썬 2021. 11. 4. 11:46
전처리 1. 결측치 평균으로 대체 먼저 실습을 진행하기 위해 필요한 데이터를 다운받아서 colab에 불러온다. 지난 Lv.1에서와 같이 pandas를 import해서 데이터를 불러온다. import pandas as pd train = pd.read_csv('data/train.csv') test = pd.read_csv('data/test.csv') 결측치가 있는 피쳐를 살펴본다. print(train.isnull().sum()) fillna()를 이용해 결측치를 각 피쳐의 평균값으로 대체한다. train.fillna({'hour_bef_temperature':int(train['hour_bef_temperature'].mean())}, inplace=True) train.fillna({'hour_be..
-
[DACON 오늘의 파이썬][Lv1. 의사결정회귀나무로 따릉이 데이터 예측하기]python/오늘의 파이썬 2021. 10. 28. 20:10
1. 라이브러리 불러오기(import) 데이터를 분석하기 위해 불러오고 조작하는 등 핸들링을 하려면 도구가 필요하다. 실습에 필요한 라이브러리 pandas를 불러왔다. import [라이브러리] as [사용할 이름] import pandas as pd 2. 파일 불러오기(read_csv()) 파일 불러오기에 앞서 데이터 다운로드 링크로 데이터를 코랩에 불러온다. 그리고 pandas의 약어로 지정한 pd를 사용하여 read_csv함수를 통해 csv 파일을 불러올 수 있다. import pasdas as pd train = pd.read_csv('data/train.csv') test = pd.read_csv('data/test.csv') 3. 행렬 개수 관찰하기(shape) 이제 불러온 데이터의 행과 열의..
-
[모두의 데이터분석] Unit05 내 생일의 기온 변화를 그래프로 그리기python/모두의 데이터분석 2021. 2. 2. 00:03
이번 유닛에서는 지난 유닛에서 배운 matplotlib라이브러리에 pyplot모듈로 데이터를 그래프로 시각화 해 볼 것이다. 먼저 서울 기온 데이터를 읽어와서 최고 기온 데이터 값이 존재하면 result 리스트에 최고 기온 값이 추가되도록 코드를 짜고 result 리스트에 저장된 값을 빨간색 그래프로 나타내게 했다. 4만 개에 가까운 최고 기온 데이터를 모두 나타내었더니, 섬뜩한 그래프가 나왔다. 생일의 기온 변화 그래프를 그리기에 앞서 split() 함수를 배워보자. split() 함수는 문자열을 분리해준다. 기본적으로 공백 문자를 기준으로 문자열을 분리한다. 그런데 데이터를 '-' 를 기준으로 분리하고 싶다면 위와 같이 쓰면 된다. 이제 배웠던 내용들을 바탕으로 생일(이 책에서는 2월 14일로 정했다..
-
[모두의 데이터분석] Unit04 기본 그래프 그리기python/모두의 데이터분석 2021. 1. 31. 21:28
드디어 이번 유닛에서 데이터를 시각화하는 것을 해볼 것이다. 파이썬에서 데이터를 시각화하는 데는 matplotlib이라는 라이브러리를 가장 많이 사용한다. 우리는 오늘 matplotlib이라는 라이브러리의 모듈들 중에서 pyplot이라는 모듈을 사용할 것이다. plot() 함수를 이용해서 직선 또는 꺾은선 그래프를 그려보자. 리스트의 값이 y축 값으로 입력되며 x축 값은 자동을 0부터 1씩 증가하는 정수로 입력된다. plot() 함수에 두 개의 리스트를 넣어보자. plt.plot([x축 데이터], [y축 데이터])인 것을 볼 수 있다. 다음은 plt.plot()에 다른 속성들도 넣어보자. title() 함수로 먼저 그래프의 제목을 넣어주었다. label 이라는 속성으로 레이블 값을 정해주고 legend(..
-
[모두의 데이터분석] Unit03 서울이 가장 더웠던 날은 언제였을까python/모두의 데이터분석 2021. 1. 31. 20:25
이번 유닛에서는 기상 관측아래, 서울의 최고 기온이 가장 높았던 날은 언제였고 몇도 였는지 데이터를 통해 알아낼 것이다. 먼저 문자열로 되어있는 최고 기온 데이터를 실수(float) 데이터로 변환해보자. float() 함수를 사용해서 row[-1]을 실수 데이터로 변환하고 각 행을 for 반복문을 사용해서 출력했다. 실행 결과를 보면 1950-09-01의 기온 데이터가 누락되어 있기 때문에 1950-08-31까지의 데이터만 나오고 오류가 발생하는 것을 알 수 있다. 이 오류를 해결하기 위해 빈 값을 대체할 특정 값을 넣어봤다. 특정 값은 최고 기온 값으로 나오기 힘든 -999로 정했다. 대체값을 넣은 결과, 오류가 발생하지 않고 끝까지 데이터가 출력된다. 여기까지 문자열을 실수로 변환하는 데이터 정리를 ..
-
[모두의 데이터분석] Unit02 서울의 기온 데이터 분석하기python/모두의 데이터분석 2021. 1. 29. 13:15
이번 유닛에서는 csv 파일에서 데이터를 읽어오는 방법과 데이터를 출력하는 방법을 배우고 직접 서울의 기온 통계자료 데이터를 분석하는 것이 목표이다. 먼저 기상자료개방포털에서 csv파일을 다운로드한다. 다운로드한 csv파일에서 불필요한 1~7행을 삭제하고 파일 이름을 seoul.csv로 변경한다. 그리고 주피터 노트북을 실행한다. 실행했다면 새로운 파이썬 노트북을 생성해서 빈 셀에 코드를 작성한다. 여기 작성된 코드를 첫 줄부터 자세히 보면 csv 모듈을 불러온다. csv 파일을 open() 함수로 열어서 f에 저장한다. f를 reader() 함수에 넣어 data라는 객체를 생성한다. data를 출력한다. 열었던 파일을 다시 닫는다. 이렇게 코드가 진행되는걸 알 수 있다. 여기서 두번째줄 f = open..
-
[모두의 데이터분석] Unit12 지하철 시간대별 데이터 시각화하기python/모두의 데이터분석 2021. 1. 28. 22:27
오늘은 matplotlib 라이브러리를 이용해 지하철 시간대별 이용현황 데이터를 시각화 해보았다. 이번 장에서는 특별히 for 반복문을 사용하지 않고 map()함수를 사용해서 데이터를 한꺼번에 정수형으로 바꾸었다. > map(int, row[4:]) 위 코드는 row 리스트의 4번 인덱스부터 맨 끝 인덱스까지 저장된 값을 모두 정수형(int)으로 바꾼다. 출근 시간대 사람들이 가장 많이 타고 내리는 역은 어디일까 출근 시간대를 7시~9시로 정하고 각 역의 7시, 8시, 9시 하차인원을 모두 더한 값 중에서 가장 큰 값, 즉 최대값 찾기 패턴으로 코드를 진행했다. 출근시간대 사람들이 가장 많이 하차하는 역은 역시 직장이 많이 밀집된 강남역이었다. 시간대별로 하차 인원이 가장 많은 역을 찾는 코드 시간대별 ..