2025/03 16

모델 성능 평가와 다중 분류 / 결정 트리의 기본 개념 / 랜덤 포레스트 개념과 구현

로지스틱 회귀 모델을 활용하여 고객 재구매를 예측하는 보고서 쓰기  import pandas as pdimport matplotlib.pyplot as pltimport koreanize_matplotlibimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score, classification_report, confusion_matrix# 데이터 로드df = pd.read_csv("customer_repurchase.csv")# 할인쿠폰사용여부 재구매여부 관계 시각화pl..

데이터 전처리, 특징 엔지니어링, 선형회귀, 로지스틱회귀

- 데이터를 머신러닝 모델에 적합한 형태로 변환1) 데이터 정리 및 탐색데이터 로드: pandas, NumPy 등을 활용하여 데이터를 불러옴기초 통계 확인: df.describe(), df.info() 등을 이용하여 데이터 타입과 분포 확인데이터 시각화: matplotlib, seaborn을 사용해 변수 간 관계 파악2) 결측값(Missing Values) 처리(1) 결측값 확인import pandas as pddf.isnull().sum() # 결측값 개수 확인 (2) 결측값 처리 방법 # 삭제(Dropping): 결측값이 적은 경우 해당 행 또는 열 제거df.dropna(inplace=True) # 대체(Imputation): 평균, 중앙값, 최빈값 또는 예측값으로 결측값을 채움df.fillna(d..

머신러닝의 기본 개념 이해

머신러닝은 전통적인 프로그래밍 방식과는 달리 명시적인 규칙을 프로그래머가 지정하는 것이 아니라, 알고리즘(계산방식)이 데이터를 분석하여 스스로 규칙을 찾아내는 방식으로 동작한다. 머신러닝의 정의- 데이터에서 패턴을 찾아 학습하고, 새로운 데이터에 대해 예측을 수행하는 시스템 # 회귀식으로 머신러닝의 기본 개념 이해하기1) Y = W * XY → 라벨, 예측하려는 값, 출력(Output, 종속변수)X → 입력 데이터, 학습데이터 (Input, 독립변수)W → 가중치(Weight) 또는 계수(Coefficient), 모델, 패턴, 모델이 학습해야 할 값☞ '입력 데이터(X)'에 어떤 '가중치(W)'를 곱해서 '출력(Y)'을 예측하는 것!즉, 머신러닝 모델은 적절한 W(가중치)를 찾는 과정. 머신러닝 목표:=..

웹서버로 보고서 구현(flask) / 루커 스튜디오 실습 및 데이터 소스 연결

웹서버(flask)로 보고서 구현하기 연습1) HTML은 문서의 구조(뼈대) 부분이며 CSS는 문서의 디자인 요소, 자바스크립트는 동적특성부여. (클릭, 입력 등 사용자의 행동에 따라 변화하거나 반응하는 기능) 위 파일에서 analysis.html 파일은 자바스크립트 코드도 포함되어 있다. (analysis.html은 index.html과 마찬가지로 templates 폴더에 넣으면 된다. 위 그림의 플라스크 기본 규격은 만든사람이 정해놓은 규칙과도 같다. 터미널을 열고 MariaDB를 실행하여 플라스크의 기본 규격에 맞게 폴더를 만들고 폴더권한을 부여한 다음, 해당폴더에 파일질라로 파일을 옮겨놓고 python3 app.py를 입력하면 웹에서 확인이 가능하다. (주소는 http://vm외부ip주소:포트번호..

* 태블로 실습 / Chart.js를 이용한 웹페이지 실습

태블로 그래프 그리기 연습  시간대 별 매출 금액 변화  남녀 매출 비교  상권 유형별 매출 차이  업종별 평균 거래 건수 비교  서울 내 특정 상권의 요일별 매출 변화  업종 시간대별 매출 패턴 분석  업종별 시간대별 매출 금액 분석  업종별로 주중과 주말 매출 비율 분석   상권 유형별 연령대 매출 비중 비교   매출 건수와 매출 금액 간 관계 분석   매출이 높은 업종 상위 10 시각화   상권별 연령대별 주요 고객층 분석   Chart.js를 이용한 웹페이지 실습

Tableau 기본 사용법

Tableau란?- 데이터를 시각적으로 분석하고 대시보드를 생성할 수 있는 데이터 시각화 도구- 코드를 작성하지 않고도 데이터를 쉽게 분석 가능- 직관적인 드래그 앤 드롭 방식 지원 Tableau의 장단점* 장점1) 직관적인 UI2) 강력한 시각화 기능- 쉽게 다 같이 볼 수 있는 대시보드 만들기가 가능하다 - 데이터 변경시 자동으로 실시간 반영3) 다양한 데이터 연결- Excel, CSV, Google Sheets, JSON- 관계형 데이터베이스(MySQL, PostgreSQL, MariaDB 등)- 클라우드 데이터(Warehouse: Google BigQuery, AWS Redshift 등)4) 빠른 데이터 처리 * 단점1) Tableau Public은 모든 데이터가 공개됨 (비공개 저장 불가)2) ..