ChatPaper.aiChatPaper

모든 질문은 가치를 지닌다: 명시적 인간 가치를 활용한 강화 학습

Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

October 23, 2025
저자: Dian Yu, Yulai Zhao, Kishan Panaganti, Linfeng Song, Haitao Mi, Dong Yu
cs.AI

초록

우리는 정량화 가능한 인간 가치 신호를 대규모 언어 모델(LLM) 최적화에 직접 연계하는 방법론인 RLEV(Reinforcement Learning with Explicit Human Values)를 제안한다. 검증 가능한 보상 기반 강화 학습(RLVR)이 객관적 영역에서 이진 정확도 보상을 통해 모델을 효과적으로 훈련시키는 반면, 이는 모든 작업이 동등한 중요도를 가지지 않음을 간과한다. RLEV는 인간이 정의한 가치 신호를 보상 함수에 직접 통합하여 이 프레임워크를 확장한다. 명시적 실제 가치 레이블이 포함된 시험 형식 데이터를 사용한 실험에서, RLEV는 다양한 RL 알고리즘과 모델 규모에서 정확도만을 고려한 기준선을 지속적으로 능가하였다. 중요한 것은, RLEV 정책이 가치 가중 정확도를 향상시킬 뿐만 아니라 가치에 민감한 종료 정책을 학습한다는 점이다: 낮은 가치의 프롬프트에는 간결하게, 높은 가치의 프롬프트에는 철저하게 응답한다. 우리는 이러한 행동이 시퀀스 종료 토큰에 대한 가치 가중 그래디언트 증폭에서 비롯됨을 입증한다. 제거 실험을 통해 이득이 가치 정렬과 인과적으로 연결되었음을 확인하였다. RLEV는 난이도 기반 레이블과 같은 잡음이 포함된 가치 신호 하에서도 견고하게 작동하며, 명시적 효용 함수에 대한 최적화가 인간의 우선순위에 LLM을 정렬시키는 실용적인 경로를 제공함을 입증한다.
English
We propose Reinforcement Learning with Explicit Human Values (RLEV), a method that aligns Large Language Model (LLM) optimization directly with quantifiable human value signals. While Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains models in objective domains using binary correctness rewards, it overlooks that not all tasks are equally significant. RLEV extends this framework by incorporating human-defined value signals directly into the reward function. Using exam-style data with explicit ground-truth value labels, RLEV consistently outperforms correctness-only baselines across multiple RL algorithms and model scales. Crucially, RLEV policies not only improve value-weighted accuracy but also learn a value-sensitive termination policy: concise for low-value prompts, thorough for high-value ones. We demonstrate this behavior stems from value-weighted gradient amplification on end-of-sequence tokens. Ablation studies confirm the gain is causally linked to value alignment. RLEV remains robust under noisy value signals, such as difficulty-based labels, demonstrating that optimizing for an explicit utility function offers a practical path to aligning LLMs with human priorities.
PDF182December 2, 2025