NOVER: 검증자 없는 강화 학습을 통한 언어 모델 인센티브 훈련
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning
May 21, 2025
저자: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI
초록
최근 DeepSeek R1-Zero와 같은 발전은 인센티브 훈련의 효과를 보여주었는데, 이는 강화 학습 패러다임으로 언어 모델의 출력 중 최종 답변 부분만을 기반으로 보상을 계산하여 중간 추론 단계의 생성을 촉진합니다. 그러나 이러한 방법은 근본적으로 외부 검증기에 의존하므로, 수학 및 코딩과 같이 이러한 검증기를 쉽게 사용할 수 있는 영역에만 적용 가능하다는 한계가 있습니다. 보상 모델이 검증기 역할을 할 수는 있지만, 고품질의 주석 데이터가 필요하고 훈련 비용이 많이 듭니다. 본 연구에서는 NOVER, 즉 NO-VERifier 강화 학습을 제안합니다. 이는 외부 검증기가 필요 없이 표준 지도 미세 조정 데이터만을 요구하는 일반적인 강화 학습 프레임워크입니다. NOVER는 다양한 텍스트-텍스트 작업에서 인센티브 훈련을 가능하게 하며, DeepSeek R1 671B와 같은 대규모 추론 모델에서 추출된 동일한 크기의 모델보다 7.7% 더 우수한 성능을 보입니다. 또한, NOVER의 유연성은 역 인센티브 훈련과 같은 대규모 언어 모델 최적화의 새로운 가능성을 열어줍니다.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of
incentive training, a reinforcement learning paradigm that computes rewards
solely based on the final answer part of a language model's output, thereby
encouraging the generation of intermediate reasoning steps. However, these
methods fundamentally rely on external verifiers, which limits their
applicability to domains like mathematics and coding where such verifiers are
readily available. Although reward models can serve as verifiers, they require
high-quality annotated data and are costly to train. In this work, we propose
NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning
framework that requires only standard supervised fine-tuning data with no need
for an external verifier. NOVER enables incentive training across a wide range
of text-to-text tasks and outperforms the model of the same size distilled from
large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the
flexibility of NOVER enables new possibilities for optimizing large language
models, such as inverse incentive training.Summary
AI-Generated Summary