ChatPaper.aiChatPaper

IntT : Les interventions auto-proposées permettent l'attribution de crédit dans le raisonnement des LLM

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

January 20, 2026
papers.authors: Matthew Y. R. Yang, Hao Bai, Ian Wu, Gene Yang, Amrith Setlur, Aviral Kumar
cs.AI

papers.abstract

L'apprentissage par renforcement basé sur les résultats (RL) s'est avéré efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, le RL standard n'attribue le crédit qu'au niveau de la réponse finale, pénalisant des traces de raisonnement entières lorsque le résultat est incorrect et renforçant uniformément toutes les étapes lorsqu'il est correct. Par conséquent, les étapes intermédiaires correctes peuvent être découragées dans les traces échouées, tandis que des étapes fallacieuses peuvent être renforcées dans les traces réussies. Nous qualifions ce mode d'échec de problème d'attribution du crédit. Bien qu'un remède naturel consiste à entraîner un modèle de récompense de processus, optimiser avec précision de tels modèles pour identifier les étapes de raisonnement correctives reste difficile. Nous introduisons l'Entraînement par Intervention (InT), un paradigme d'entraînement dans lequel le modèle effectue une attribution de crédit fine sur ses propres traces de raisonnement en proposant de courtes corrections ciblées qui orientent les trajectoires vers une récompense plus élevée. En utilisant les solutions de référence couramment disponibles dans les ensembles de données de raisonnement mathématique et en exploitant le fait que vérifier une solution générée par un modèle est plus facile que d'en générer une correcte à partir de zéro, le modèle identifie la première erreur dans son raisonnement et propose une intervention en une seule étape pour rediriger la trajectoire vers la solution correcte. Nous appliquons ensuite un réglage fin supervisé (SFT) au déroulement sur-politique jusqu'au point d'erreur concaténé avec l'intervention, localisant ainsi l'erreur à l'étape spécifique ayant causé l'échec. Nous montrons que le modèle résultant constitue une bien meilleure initialisation pour l'entraînement RL. Après avoir exécuté InT et un réglage fin ultérieur avec RL, nous améliorons la précision de près de 14 % par rapport à un modèle de base de 4 milliards de paramètres sur IMO-AnswerBench, surpassant des modèles open-source plus grands tels que gpt-oss-20b.
English
Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.
PDF31January 22, 2026