InT: 자체 제안 개입을 통한 대규모 언어 모델 추론 과정의 신용 할당 가능성
InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
January 20, 2026
저자: Matthew Y. R. Yang, Hao Bai, Ian Wu, Gene Yang, Amrith Setlur, Aviral Kumar
cs.AI
초록
결과-보상 강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 효과적인 것으로 입증되었습니다. 그러나 표준 RL은 최종 답변 수준에서만 신용을 할당하여 결과가 틀렸을 때는 전체 추론 과정을 불이익하고, 정답일 때는 모든 단계를 균일하게 강화합니다. 그 결과, 실패한 추론 과정에서 정확한 중간 단계가 약화될 수 있고, 성공한 추론 과정에서 오류가 있는 단계가 강화될 수 있습니다. 우리는 이러한 실패 모드를 신용 할당 문제라고 부릅니다. 자연스러운 해결책은 과정 보상 모델을 훈련시키는 것이지만, 수정이 필요한 추론 단계를 정확히 식별하도록 이러한 모델을 최적화하는 것은 여전히 어렵습니다. 우리는 인터벤션 트레이닝(InT)을 소개합니다. 이는 모델이 높은 보상 방향으로 궤적을 조종하는 짧고 표적화된 수정안을 제시함으로써 자체 추론 과정에 대해 세밀한 신용 할당을 수행하는 훈련 패러다임입니다. 수학적 추론 데이터셋에서 흔히 이용 가능한 참조 솔루션과 모델 생성 솔루션의 검증이 처음부터 정답을 생성하는 것보다 쉽다는 점을 활용하여, 모델은 자체 추론에서 첫 번째 오류를 식별하고 정확한 솔루션 방향으로 궤적을 재조정하는 단일 단계 인터벤션을 제안합니다. 그런 다음 오류가 발생한 지점까지의 온-폴리시 롤아웃과 인터벤션을 연결하여 지도 미세 조정(SFT)을 적용함으로써 실패를 초래한 특정 단계에 오류를 국소화합니다. 우리는 이를 통해 얻어진 모델이 RL 훈련을 위한 훨씬 나은 초기화 모델로 기능함을 보여줍니다. InT 및 이후 RL을 통한 미세 조정을 수행한 결과, 4B 매개변수 기반 모델 대비 IMO-AnswerBench에서 정확도가 약 14% 향상되었으며, gpt-oss-20b와 같은 더 큰 오픈소스 모델들을 능가하는 성능을 달성했습니다.
English
Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.