Zelfvoorgestelde Interventies Maken Toerekening van Verdienste Mogelijk in Redeneren van Grote Taalmodellen

Samenvatting

Outcome-reward reinforcement learning (RL) heeft zijn effectiviteit bewezen bij het verbeteren van de redeneervaardigheden van grote taalmmodellen (LLM's). Echter, standaard RL kent credits uitsluitend toe op het niveau van het uiteindelijke antwoord, waarbij volledige redeneersporen worden bestraft als de uitkomst incorrect is, en alle stappen uniform worden versterkt wanneer deze correct is. Hierdoor kunnen correcte tussenstappen worden ontmoedigd in mislukte sporen, terwijl onterechte stappen worden versterkt in geslaagde sporen. Wij verwijzen naar deze foutmodus als het probleem van credit assignment. Hoewel een natuurlijk middel is om een procesbeloningsmodel te trainen, blijft het een uitdaging om dergelijke modellen nauwkeurig te optimaliseren om corrigerende redeneerstappen te identificeren. Wij introduceren Intervention Training (InT), een trainingsparadigma waarin het model fijnmazige credit assignment uitvoert op zijn eigen redeneersporen door korte, gerichte correcties voor te stellen die trajecten sturen naar een hogere beloning. Gebruikmakend van referentieoplossingen die vaak beschikbaar zijn in wiskundige redeneerdatasets en profiterend van het feit dat het verifiëren van een modelgegenereerde oplossing eenvoudiger is dan het vanaf nul genereren van een correcte, identificeert het model de eerste fout in zijn redenering en stelt het een eenstapsinterventie voor om het traject terug te leiden naar de correcte oplossing. Vervolgens passen we supervised fine-tuning (SFT) toe op de on-policy rollout tot aan het foutpunt, geconcateneerd met de interventie, waardoor de fout wordt gelokaliseerd naar de specifieke stap die de mislukking veroorzaakte. Wij tonen aan dat het resulterende model dient als een veel betere initialisatie voor RL-training. Na het uitvoeren van InT en daaropvolgende fine-tuning met RL, verbeteren we de nauwkeurigheid met bijna 14% ten opzichte van een 4B-parameter basismodel op IMO-AnswerBench, waarbij grotere open-source modellen zoals gpt-oss-20b worden overtroffen.

English

Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.

Zelfvoorgestelde Interventies Maken Toerekening van Verdienste Mogelijk in Redeneren van Grote Taalmodellen

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

Samenvatting

Support