InT: Gli interventi auto-proposti abilitano l'attribuzione del credito nel ragionamento dei LLM

Abstract

L'apprendimento per rinforzo (RL) basato sul risultato-ricompensa si è dimostrato efficace nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, l'RL standard assegna il merito solo a livello della risposta finale, penalizzando intere tracce di ragionamento quando il risultato è errato e rinforzando uniformemente tutti i passaggi quando è corretto. Di conseguenza, i passaggi intermedi corretti possono essere scoraggiati nelle tracce fallite, mentre passaggi spurii possono essere rinforzati in quelle riuscite. Definiamo questo problema come il problema dell'assegnazione del credito. Sebbene un rimedio naturale sia addestrare un modello di ricompensa di processo, ottimizzare con precisione tali modelli per identificare i passaggi di ragionamento correttivi rimane complesso. Introduciamo l'Intervention Training (InT), un paradigma di addestramento in cui il modello esegue un'assegnazione del credito granulare sulle proprie tracce di ragionamento, proponendo correzioni brevi e mirate che indirizzano le traiettorie verso una ricompensa maggiore. Utilizzando le soluzioni di riferimento comunemente disponibili nei dataset di ragionamento matematico e sfruttando il fatto che verificare una soluzione generata dal modello è più semplice che generarne una corretta da zero, il modello identifica il primo errore nel suo ragionamento e propone un intervento a singolo passo per reindirizzare la traiettoria verso la soluzione corretta. Applichiamo quindi il fine-tuning supervisionato (SFT) al rollout on-policy fino al punto di errore concatenato con l'intervento, localizzando l'errore nello specifico passaggio che ha causato il fallimento. Dimostriamo che il modello risultante funge da inizializzazione molto migliore per l'addestramento RL. Dopo aver eseguito InT e il successivo fine-tuning con RL, miglioriamo l'accuratezza di quasi il 14% rispetto a un modello base da 4 miliardi di parametri su IMO-AnswerBench, superando modelli open-source più grandi come gpt-oss-20b.

English

Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.

InT: Gli interventi auto-proposti abilitano l'attribuzione del credito nel ragionamento dei LLM

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

Abstract

Support