InT: Las intervenciones autopropuestas permiten la asignación de crédito en el razonamiento de modelos de lenguaje grandes.
InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
January 20, 2026
Autores: Matthew Y. R. Yang, Hao Bai, Ian Wu, Gene Yang, Amrith Setlur, Aviral Kumar
cs.AI
Resumen
El aprendizaje por refuerzo (RL) basado en resultados ha demostrado ser eficaz para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLM). Sin embargo, el RL estándar asigna crédito únicamente a nivel de la respuesta final, penalizando trazas de razonamiento completas cuando el resultado es incorrecto y reforzando uniformemente todos los pasos cuando es correcto. Como consecuencia, los pasos intermedios correctos pueden verse desincentivados en trazas fallidas, mientras que pasos espurios pueden ser reforzados en las exitosas. Nos referimos a este modo de fallo como el problema de la asignación de crédito. Aunque un remedio natural es entrenar un modelo de recompensa de proceso, optimizar dichos modelos con precisión para identificar pasos de razonamiento correctivos sigue siendo un desafío.
Introducimos *Intervention Training* (InT), un paradigma de entrenamiento en el que el modelo realiza una asignación de crédito de grano fino sobre sus propias trazas de razonamiento, proponiendo correcciones breves y específicas que redirigen las trayectorias hacia una mayor recompensa. Utilizando las soluciones de referencia comúnmente disponibles en los conjuntos de datos de razonamiento matemático y explotando el hecho de que verificar una solución generada por el modelo es más fácil que generar una correcta desde cero, el modelo identifica el primer error en su razonamiento y propone una intervención de un solo paso para redirigir la trayectoria hacia la solución correcta. Luego aplicamos el ajuste fino supervisado (SFT) al *rollout on-policy* hasta el punto del error concatenado con la intervención, localizando así el error en el paso específico que causó el fallo. Demostramos que el modelo resultante sirve como una inicialización mucho mejor para el entrenamiento con RL. Tras ejecutar InT y el posterior ajuste fino con RL, mejoramos la precisión en casi un 14% respecto a un modelo base de 4B de parámetros en IMO-AnswerBench, superando a modelos de código abierto más grandes como gpt-oss-20b.
English
Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.