목록AI (18)
studio.heelab
CH09. 추천 시스템01. 추천 시스템의 개요와 배경온라인 스토어의 필수 요소, 추천 시스템추천 시스템의 유형콘텐츠 기반 필터링협업 필터링최근접 이웃 협업 필터링잠재 요인 협업 필터링02. 콘텐츠 기반 필터링 추천 시스템사용자가 특정한 아이템을 매우 선호하는 경우, 그 아이템과 비슷한 콘텐츠를 가진 다른 아이템을 추천하는 방식03. 최근접 이웃 협업 필터링사용자 행동 양식만을 기반으로 추천을 수행하는 것사용자 기반과 아이템 기반으로 나뉜다04. 잠재 요인 협업 필터링잠재 요인 협업 필터링의 이해사용자-아이템 평점 매트릭스 속에 숨어 있는 잠재 요인을 추출해 추천 예측을 할 수 있게 하는 기법행렬 분해: 대규모 다차원 행렬을 SVD와 같은 차원 감소 기법으로 분해하는 과정에서 잠재요인을 추출하는 기법행렬..
CH08.텍스트 분석01. 텍스트 분석 이해텍스트 분류: 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법감성 분석: 텍스트에서 나타내는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법텍스트 요약: 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법텍스트 군집화와 유사도 측정: 비슷한 유형의 문서에 대해 군집화를 수행하는 기법 텍스트를 변환하는 것: 피처 벡터화 또는 피처 추출변환하는 방법 BOW 텍스트 분석 수행 프로세스1. 텍스트 사전 준비 작업(텍스트 전처리): 미리 클렌징, 대소문자 변경, 특수문자 삭제 등 클렌징 작업, 단어 등의 토큰화 작업, 의미 없는 단어 제거 작업, 어근 추출 등 텍스트 정규화 작업 수행 통칭2. 피처 벡터화/추출: 사전 준비 작업으로 가공된..
CH07. 군집화01. K-평균 알고리즘 이해K-평균은 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법 사이킷런 KMeans 클래스 소개초기화 파라미터n_clusters: 군집화할 개수, 군집 중심점의 개수init: 초기에 군집 중심점의 좌표를 설정할 방식max_iter: 최대 반속 횟수, 이 횟수 이전에 모든 데이터의 중심점 이동이 없으면 종료 주요 속성 정보labels_: 각 데이터 포인트가 속한 군집 중심점 레이블cluster_centers_: 각 군집 중심점 좌표K-평균을 이용한 붓꽃 데이터 세트 군집화꽃받침과 꽃잎 길이와 너비에 따른 품종 분류 데이터 세트kmeans = KMeans(n_clusters=3, init='k-means++',..
CH06. 차원 축소 01. 차원 축소 개요매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 셋을 생성하는 것 차원이 증가할수록 데이터 포인트 간 거리가 기하급수적으로 멀어지게 되고, 희소한 구조를 가지게 된다 차원 축소는 피처 선택과 피처 추출로 나눌 수 있다 피처 선택: 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것피처 추출: 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것->새롭게 추출된 중요 특성은 기존의 피처가 압축된 것이므로 기존의 피처와는 완전히 다른 값이 된다02. PCA(Principal Component Analysis) 401pPCA 개요여러 변수 간에 존재하는 상관관계 이용해 이..
CH05. 회귀01. 회귀소개회귀 분석: 데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계적 기법 핵심은 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것지도학습의 2가지 유형 -> 분류와 회귀분류의 예측값은 카테고리 같은 이산형 클래스값회귀는 연속형 숫자 값일반 선형 회귀릿지: 선형 회귀에 L2 규제 추가라쏘: 선형 회귀에 L1 규제 추가엘라스틱넷: L2, L1 규제를 함께 결합한 모델로지스틱 회귀: 분류에 사용되는 선형 모델02. 단순 선형 회귀를 통한 회귀 이해독립변수 1, 종속변수1인 선형 회귀03. 비용 최소화하기 - 경사 하강법(Gradient Descent) 소개오류가 작아지는 방향으로 w 값을 보정하기경사하강법의 프로세스반복적으로 경사 하강법을 ..
CH04. 분류지도학습은 레이블이 주어진 상태에서 학습하는 머신러닝 방식그 중 분류는 학습데이터로 주어진 데이터의 피처와 레이블값(결정값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 다양한 머신러닝 알고리즘 앙상블은 배깅과 부스팅 방식으로 나뉜다배깅의 대표적인 방식은 랜덤포레스트XGBoost와 LightGBM 등 기존 그래디언트 부스팅의 예측 성능을 발전시킴02. 결정 트리(Decision Tree)결정 트리 모델 특징데이터의 규칙을 학습으로 자동으로 찾아내 트리 기반의 분류 규칙을 만든다if/else 기반으로 나타내는 방식이 있음 결정 트리 구조규칙 노드: 규칙 조건리프 노드: 결정된 클래스 값각 규칙마다 서브 트..