머신러닝/딥러닝 지도학습(Supervised Learning)

sk루키즈/생성형AI 활용을 위한 머신러닝&딥러닝 2026. 3. 22. 21:08

인공지능과 머신러닝을 공부할 때 가장 먼저, 그리고 가장 비중 있게 다루는 개념이 바로 '지도학습(Supervised Learning)'이다. 세상에 존재하는 수많은 AI 서비스의 80% 이상이 이 지도학습을 기반으로 작동한다고 해도 과언이 아니다.

데이터를 기계에게 어떻게 먹이고, 기계는 어떤 방식으로 세상을 이해하는지 지도학습의 본질과 핵심 뼈대를 완벽하게 파헤쳐 본다.

지도학습의 핵심은 기계에게 '정답(Label)'이 포함된 데이터를 학습시키는 것이다. 비유하자면, 학생에게 수능 기출문제(데이터)와 해설지(정답)를 함께 주면서 공부시키는 것과 완벽하게 똑같다.

학습(Training) 단계: "혈당이 140이고 BMI가 30인 환자는 당뇨병(정답: 1)이야", "방이 3개고 평수가 30평인 집은 3억 원(정답: 300,000)이야"라는 수만 개의 과거 데이터를 기계에게 입력한다. 기계는 이 데이터들을 수학적으로 이리저리 뜯어보며, 특징(Feature)과 정답(Target) 사이의 숨겨진 규칙(패턴)을 스스로 찾아낸다.
예측(Prediction) 단계: 학습이 끝난 기계에게 정답이 없는 '새로운 문제'를 들이민다. 기계는 자신이 공부했던 패턴을 바탕으로 "이 환자의 혈당과 BMI를 보니 당뇨병일 확률이 높군!" 하고 미지의 정답을 추론해 낸다.

A. 분류 (Classification): "어느 소속인가?" 정답이 연속되지 않은 '카테고리(범주)'일 때 사용하는 방법이다. 객관식 문제와 같다.

B. 회귀 (Regression): "얼마인가?" 정답이 연속적인 '수치(숫자)'일 때 사용하는 방법이다. 주관식 문제와 같다.

예시: 주택의 조건(면적, 방 개수, 건축 연도 등)을 보고 '집값' 예측하기, 내일의 '주식 가격' 예측하기, 기온과 습도를 바탕으로 내일의 '아이스크림 판매량' 예측하기.
특징: 예측 결과가 3억 5천만 원, 25.4도처럼 연속된 실수(Float) 형태로 출력된다.

데이터를 쥐어주면 기계는 내부적으로 수학적 알고리즘을 돌려 규칙을 찾는다. 실무에서 가장 많이 쓰이는 지도학습 알고리즘은 다음과 같다.

선형 회귀 (Linear Regression): 데이터를 가장 잘 관통하는 하나의 '직선'을 긋는 모델이다. 집값이나 매출액 등 연속된 숫자를 예측하는 회귀 문제의 가장 기초가 된다.
의사결정나무 (Decision Tree): 스무고개 놀이처럼, 데이터의 특징을 기준으로 계속해서 "Yes or No" 질문을 던지며 가지를 쳐 나가는 직관적인 모델이다. 사람의 논리 구조와 비슷하여 결과 해석이 매우 쉽지만, 훈련 데이터만 달달 외워버리는 '과대적합(Overfitting)'에 빠지기 쉬워 트리의 깊이(Depth)를 적절히 제한해 주어야 한다.
앙상블 (Ensemble) 기법: 단일 모델의 약점을 극복하기 위해, 여러 개의 모델을 집단 지성처럼 묶어서 사용하는 최신 기법이다. 수많은 의사결정나무를 숲처럼 모아놓은 '랜덤 포레스트(Random Forest)'나, 오답을 집중적으로 고쳐 나가는 'XGBoost', 'LightGBM' 등이 캐글(Kaggle) 같은 데이터 분석 대회를 휩쓸고 있다.

학습이 끝난 모델이 얼마나 똑똑한지 평가(Evaluation)하는 지표 역시, 분류와 회귀에 따라 완전히 달라진다.

분류 모델의 평가 지표: * 모델이 전체 문제 중 몇 개를 정확히 맞혔는지를 보는 **정확도(Accuracy)**가 기본이다.
- 하지만 암 환자 예측처럼 특수한 상황에서는, 실제 암 환자를 놓치지 않고 찾아내는 **재현율(Recall)**이나, 암이라고 예측한 사람 중 진짜 암 환자의 비율을 보는 정밀도(Precision) 등 복합적인 지표(F1-Score)를 함께 고려해야 한다.
회귀 모델의 평가 지표:
- 정답이 연속된 숫자이므로 '얼마나 빗나갔는가(오차)'를 측정한다.
- MAE (평균 절대 오차): 기계가 예측한 값과 실제 정답의 차이를 평균 낸 직관적인 오차치다.
- RMSE (평균 제곱근 오차): 예측이 크게 빗나간 '대형 사고(이상치)'에 엄청난 페널티를 부여하여 오차를 측정하는 실무의 핵심 지표다.
- R2 Score (결정 계수): 모델이 전체 데이터의 변동성을 얼마나 잘 설명하고 있는지를 0에서 1 사이의 비율로 나타낸다. 1에 가까울수록 데이터를 완벽하게 예측하는 훌륭한 모델이다.

지도학습은 인간이 명확한 목적(정답)을 가지고 기계를 학습시키는 가장 확실하고 통제 가능한 인공지능의 형태다. 어떤 데이터를 수집하고, 어떤 알고리즘을 선택하며, 모델의 과대적합을 어떻게 방지할 것인가를 고민하는 과정이 곧 데이터 사이언티스트의 핵심 역량이다.

지도학습의 뼈대를 완벽히 이해했다면, 이제 정답 없이 기계 스스로 패턴을 군집화하는 '비지도학습(Unsupervised Learning)'이라는 새로운 세계가 기다리고 있을 것이다.

머신러닝/딥러닝 비지도학습 주요 알고리즘 (0)	2026.03.23
머신러닝/딥러닝 : 데이터 파악 (0)	2026.03.21
머신러닝/딥러닝 데이터 전처리 (0)	2026.03.19
머신러닝/딥러닝의 시작: 인공지능이 학습하는 데이터의 종류 (1)	2026.03.18

하얀 그림자 속 컴퓨터 하얀 그림자 속 컴퓨터