ChatPaper.aiChatPaper

지도 강화 학습: 전문가 궤적에서 단계별 추론으로

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

October 29, 2025
저자: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
cs.AI

초록

대규모 언어 모델(LLM)은 다단계 추론이 필요한 문제에 대해 종종 어려움을 겪습니다. 소규모 오픈소스 모델의 경우, 검증 가능한 보상을 활용한 강화 학습(RLVR)은 여러 번의 시도에도 정답이 거의 샘플링되지 않으면 실패하는 반면, 지도 미세 조정(SFT)은 토큰 단위의 경직된 모방을 통해 긴 시연 데이터에 과적합되는 경향이 있습니다. 이러한 격차를 해결하기 위해 우리는 문제 해결을 논리적인 "행동"의 연속적 생성으로 재구성하는 지도 강화 학습(SRL) 프레임워크를 제안합니다. SRL은 모델이 각 행동을 수행하기 전에 내부 추론 과정(monologue)을 생성하도록 훈련합니다. 이 프레임워크는 SFT 데이터셋에서 추출한 전문가의 행동과 모델의 행동 간 유사성을 단계별로 평가하여 더 부드러운 보상을 제공합니다. 이러한 지도 방식은 모든 롤아웃이 틀린 경우에도 더 풍부한 학습 신호를 제공하면서, 전문가 시연에 기반한 유연한 추론을 장려합니다. 그 결과, SRL은 SFT나 RLVR로는 학습이 불가능했던 난제들을 소규모 모델이 학습할 수 있게 합니다. 더 나아가, RLVR로 정교화를 수행하기 전에 SRL로 훈련을 초기화하면 전반적으로 가장 강력한 성능을 달성합니다. 추론 벤치마크를 넘어, SRL은 에이전트형 소프트웨어 엔지니어링 작업에도 효과적으로 일반화되어, 추론 중심 LLM을 위한 강력하고 다재다능한 훈련 프레임워크로 자리매김합니다.
English
Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.
PDF442December 2, 2025