ChatPaper.aiChatPaper

자가 지식을 증류하는 강화 학습

Reinforcement Learning via Self-Distillation

January 28, 2026
저자: Jonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause
cs.AI

초록

대규모 언어 모델은 코드나 수학과 같이 검증 가능한 영역에서 강화 학습을 통한 사후 훈련이 점차 확대되고 있습니다. 그러나 검증 가능한 보상을 활용한 강화 학습(RLVR)의 현재 방법론은 시도마다 단일 스칼라 결과 보상만을 학습하여 심각한 크레딧 할당 병목 현상을 초래합니다. 많은 검증 가능한 환경은 실제로 런타임 오류나 평가자 판정과 같은 풍부한 텍스트 피드백을 제공하여 시도가 실패한 이유를 설명해줍니다. 우리는 이러한 환경을 풍부한 피드백을 활용한 강화 학습으로 공식화하고, 외부 교사나 명시적 보상 모델 없이 토큰화된 피드백을 밀집된 학습 신호로 변환하는 자기 지식 증류 정책 최적화(SDPO)를 제안합니다. SDPO는 피드백을 조건으로 한 현재 모델을 자기 교사로 간주하고, 피드백이 반영된 다음 토큰 예측을 정책으로 다시 증류합니다. 이를 통해 SDPO는 모델의 문맥 내 자기 오류 식별 능력을 활용합니다. 과학적 추론, 도구 사용, LiveCodeBench v6의 경쟁적 프로그래밍 영역에서 SDPO는 강력한 RLVR 기준선 대비 샘플 효율성과 최종 정확도를 향상시켰습니다. 주목할 만하게, SDPO는 스칼라 피드백만 제공하는 표준 RLVR 환경에서도 성공한 롤아웃을 실패한 시도의 암묵적 피드백으로 활용하여 기준선을 능가했습니다. 마지막으로, 테스트 시점에 개별 문제에 SDPO를 적용하면 어려운 이진 보상 과제에서의 발견 속도를 가속화하여, 최대-k 샘플링이나 다중 회차 대화와 동일한 발견 확률을 3배 적은 시도로 달성합니다.
English
Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.
PDF52January 30, 2026