2026년 4월 19일

지피티는 왜 클로드에 밀렸을까 …ing

Constitutional AI, 인간도 고치걸아.

퇴사 전만 해도 이렇게까지 Claude가 🥁붐🎸이진 않았던 것 같은데, 백수상태인 반년동안 지피티는 이제 멍청하다고 느끼는 지경이 되어버려서 …
과연 이 차이는 어디서 오고 있는걸까 라는 생각에 논문을 읽어보았다.

* Constitutional AI: Harmlessness from AI Feedback

- Introduction

AI가 점점 강력해질수록, 그 AI를 감독하는 데 AI 자신을 쓸 수 있지 않을까 — 이게 이 논문의 핵심 질문임.

LLM을 사전학습(pretraining)만 시키면 텍스트를 그럴듯하게 완성하는 능력은 생기지만, 사람이 원하는 방식으로 대화하는 능력은 자동으로 생기지 않음. 예를 들어, 사전 학습된 모델에 “요약해줘”라고 입력하면, 인터넷에서 가장 자주 이어지는 텍스트를 생성하려 하기 때문에 욕설이나 편향적인 내용들을 그대로 출력할 가능성이 있음.

따라서 AI가 사람이 원하는 방식으로 행동하기 위해서는 사람의 신호를 최대화한 출력을 반영해야 하는데, 문제는 선호도(preference)를 AI가 적용할 수 있도록 수식으로 만들기가 어렵다는 것임.

따라서 사람이 직접 응답을 평가한 데이터를 모아서 그 선호를 모델로 근사(approximate)하는 방식을 사용함.

기존에 이를 방지하기 위해 사용하는 방식은 사람이 직접 “이 응답이 더 좋아요”를 수만번 라벨링해서, 그걸 기반으로 AI를 학습시키는 방식인 RLHF(Reinforcement Learning from Human Feedback)였음.

다만 RLHF는,

확장성 한계 (Scalability)

AI 능력이 올라갈수록 사람이 좋고 나쁜 걸 판단하기 점점 어려워짐. 사람보다 똑똑한 AI를 사람이 감독하는 건 구조적으로 한계가 있음.
회피(Evaslveness) 유도 → Helpfulness-Harmlessness 트레이드오프

인간 라벨러들은 유해한 질문에 "모르겠어요", "답 못 드려요" 같은 거절을 무해하다고 라벨링하는 경향이 있음. 그 결과 AI가 설명 없이 그냥 회피하는 걸 배움.

따라서 회피성을 띄는 대답을 안전한 대답이라고 인식하여 대답하면 점점 쓸모 없어지는 딜레마가 있음.
블랙박스 문제 (Opacity)

수만 개의 인간 라벨은 대부분 공개되지 않고, 혹은 공개되더라도 라벨러들이 어떤 기준으로 판단했는지 알 수 없음.

따라서 Anthropic은 이걸 해결하기 위해, **Constitutilnal AI(CAI)**를 제안함. 사람의 라벨 없이, 자연어로 쓴 원칙 목록만으로 AI가 스스로 자기 출력을 비판하고 수정하게 만드는 방법임.

RLHF vs RLAIF(RL from AI Feedback)

RLHF 흐름:
프롬프트 → AI 응답 2개 생성 → 인간 라벨러 평가 (수만 번)
→ Reward Model 학습 → 강화학습
RLAIF 흐름:
프롬프트 → AI 응답 2개 생성 → AI가 원칙(Constitution) 보고 평가
→ Preference Model 학습 → 강화학습

핵심 차이는 라벨링 주체가 사람에서 AI로 바뀐다는 것, 그리고 그 판단 기준이 원칙으로 명시된다는 것임.

RLHF(Reinforcement Learning from Human Feedback)

말 그대로 “인간 피드백으로부터의 강화학습”을 의미하는데, OpenAI가 InstructGPT에서 처음 대규모로 적용한 방식으로, 이후 GPT-4, Gemini 등 대부분의 현대 LLM이 기반으로 삼고 있음.

RLHF의 학습단계

01. SFT (Supervised Fine-Tuning)

사전학습 모델(pretrained LM)이 instruction을 따를 수 있도록 먼저 파인튜닝함. 사람이 직접 프롬프트에 대한 고품질 응답을 작성하고(라벨링), 그 (프롬프트, 응답) 쌍으로 지도학습함.

프롬프트: "파이썬으로 피보나치 수열 짜줘"
응답:
def fibonacci(n):  
	if n <=1:  
		return n;  
	return fibonacci(n-1) + fibonacci(n-2)  

이 단계의 목적은 단지 모델이 “대화”라나는 형식과 “지시를 따르는” 기본 행동을 익히게 하는 것임. 따라서 SFT만으로는 안전하지도, 사람의 선호에 완전히 맞는 응답이 출력되지 않음.

02. Reward Model (RM) 학습

RM은 임의의 응답을 입력받아 얼마나 좋은 응답인지를 스칼라 점수로 출력하는 모델임.

SFT모델로 같은 프롬프트에 대해 응답을 여러개 샘플링함. 인간 라벨러가 이 응답들을 직접 보고 선호도 순위를 매김.

프롬프트: "지구 온난화란?"
응답 A:

지구 온난화는 온실가스 농도 증가로 지 평균 기온이 상승하는 현상임. 주된 원인은 CO₂, 메탄 등으로, 산업화 이후 급격히 가속됨.

응답 B:

지구가 따뜻해지는 거예요.

→ 라벨러의 판단: A > B

이 (프롬프트, 더 나은 응답, 덜 나은 응답)쌍을 수만 개 모아서 Reward Model을 학습시킴. 즉, RM은 임의의 응답을 입력받아 얼마나 좋은 응답인지를 스칼라 점수로 출력하는 모델임.

RM("지구 온난화는 온실가스 농도 증가로...") → 0.87 (높은 점수)
RM("지구가 따뜻해지는 거예요.") → 0.31 (낮은 점수)

03. 강화학습 w. PPO(Proximal Policy Optimization)

1단계에서 SFT모델을 기반으로 2단계 RM으로 강화학습할 때, 단순히 RM 점수만 극대화하면 모델이 RM을 속이는 방향으로 과도하게 최적화(reward hacking)될 가능성이 있음.

이를 막기 위해 KL divergence 패널티를 추가하여 SFT모델 대비 응답이 너무 멀리 벗어나지 않도록 제역을 거는 것을 PPO임.

KL divergence

RLHF의 문제점

01. 확장성의 한계

인간 라벨러가 응답을 평가하려면 어떤 응답이 더 좋은지에 대한 판단을 직접 할 수 있어야 함. 그러나 AI가 특정 도메인에서 전문가 수준을 넘어서는 순간, AI를 평가할 인간은 사라지게 됨.

02. 회피(Evaslveness) 유도

인간 라벨러들이 유해한 질문에 대한 응답으로 "도움드리기 어렵습니다", "그건 알려드릴 수 없어요" 같은 단순 거절을 더 안전하다고 라벨링하는 경향이 있는데, 이게 더 안전해 보인다고 느끼기 때문임. AI가 인간 라벨러들의 이러한 방식을 학습하게 되면, 사용자는 AI가 어떤 기준으로 거절하는지 알 수 없고, 정당한 질문도 과도하게 거절하는 경향(over-refusal)이 생겨 실용적으로도 쓸모가 없어짐.

03. 블랙박스 문제 (Opacity)

같은 맥락으로, 수만 개의 인간 라벨은 공개되어 있지 않고 따라서 이를 통해 학습한 RM은 모델 내부에 분산된 가중치만 가지기 때문에 무엇을 기준으로 점수를 매기는지 또한 정확하게 알 수 없음.

RLAIF(Reinforcement Learning from AI Feedback)

RLAIF는 RLHF의 세가지 한계를 동시에 해결하기 위해 이 논문에서 처음 체계적으로 제안되었음.

RLHF의 세가지 한계는 결국 인간 라벨러가 느리고, 비싸고, 전문성에 한계가 있으며, 판단 기준이 불투명하기 때문임. 따라서 이 인간 라벨러를 AI가 대체하여 스스로 평가하기 위해서는

AI 스스로가 응답의 좋고 나쁨을 이미 어느 정도 알고 있어야 하며,
AI의 판단 기준을 외부에서 제어할 수 있어야 함.

첫 번째 항목은, 이미 대형 언어 모델에 어떤 질문에 관한 두 응답 중 어떤 응답이 더 무해한지를 질문했을 때 크라우드 워커 수준에 근접함으로 확인하였고, 두번째가 Consitution에 해당함.

Constitution 원칙

자연어로 쓴 원칙 목록으로, 인간라벨러의 암묵적 판단 기준을 명싯적 텍스트로 대체한 것이라고 볼 수 있음. 논문에서 실험에 사용한 예시를 보면,

“가장 도움이 되고, 정직하고, 무해한 응답을 선택하라”
“독성, 인종차별, 성차별, 기타 사회적 해악을 보이는 응답을 선택하지 마라”

“현명하고 윤리적이고 친절한 사람이 더 말할 것 같은 응답을 선택하라”

이 원칙들은 세계인권선언(UDHR), Apple 이용약관 같은 실제 문서를 참고해서 만들었음. 논문에서는 16개 원칙을 사용했는데, 중요한 점은 이 원칙들이 외부에 공개된다는 것임.

RLHF의 수만 개 라벨은 블랙박스이기 때문에 판단 근거가 모호하지만, CAI의 원칙은 자연어로 공개되기 때문에 누구나 읽을 수 있음. 이게 투명성 측면에서 의미 있는 차이임.

RLAIF의 학습단계

SL (Supervised Learning): Critique → Revision 루프

SL (Supervised Learning)

초기 출발점은 RLHF로 학습된 Helpful 모델로, 해당 모델은 도움은 되지만 아직 안전하지 않은 상태로 판단함.

Red Teaming 프롬프트를 수집하여,

의도적으로 초기 모델이 유해한 응답을 하도록 만드는 요청을 수행함.
- Read Teaming
  
  군사 용어에서 온 개념으로, 아군의 약점을 찾기 위해 의도적으로 적군 역활을 수행하는 것.
  모델이 유해한 응답을 하도록 유도하는 질문들을 인간 작업자들이 만들어 내는 과정을 의미함.
RLHF로 학습된 모델에 입력하여 유해한 초기 응답을 뽑고,

해당 요청들을 helpful 상태인 모델에 입력하고 유해한 응답을 얻음
Constitution 원칙을 랜덤 샘플릭하여 모델에게 자기 비판을 요청함.

원칙 하나를 랜덤 샘플링 하여 모델에게 자기 비판을 요청함.

이 Critique → Revision 루프를 여러 번 반복하는 방식으로 SL이 진행되는데, 논문에 따르면 첫 번째 수정이 가장 큰 개선 효과를 내고, 반복할수록 효과는 점점 줄게됨.

반복을 통해 수정된 응답들을 데이터로 삼아 파인튜닝하는데, 이 때 유해 프롬프트 수정 데이터만 쓰면 모델이 일반적인 helpful 응답을 잊어버리는 현상이 나타남(catastrophic forgetting).
그래서 일반 helpful 응답 데이터도 함께 섞어서 학습하는데, 이 결과물이 SL-CAI에 해당함.
이 결과물이

RL from AI Feedback

SL 단계가 모델의 초기 행동 분포를 잡아주는 역할이라면, RL 단계는 그 결과를 바탕으로 진짜 성능을 끌어올리는 역할임. SL없이 RL만 하면 탐색 공간이 너무 넓어서 학습이 불안정해지기 때문에, SL-CAI로 같은 프롬프트에 응답 두 개를 생성하고, 별도의 피드백 모델(pretrained LM)에 원칙 하나와 두 응답을 보여주며 어느 응답이 더 무해한지를 평가하게 함.

피드백 모델의 응답 형태는 Constitution 원칙에 따라 상이한데, 최신 구현에서는 CoT(Chain-of-Thought)를 통해 먼저 이유를 추론하게 하면 판단 품질이 향상됨을 제시함.

CoT(Chain-of-Thought)

CoT가 있으면

Preference Model