InT: Intervenções Autopropostas Permitem Atribuição de Crédito no Raciocínio de LLMs

Resumo

A aprendizagem por reforço baseada em resultados (RL) tem se mostrado eficaz para melhorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs). No entanto, o RL padrão atribui crédito apenas ao nível da resposta final, penalizando trajetórias de raciocínio inteiras quando o resultado é incorreto e reforçando uniformemente todas as etapas quando é correto. Consequentemente, etapas intermediárias corretas podem ser desencorajadas em trajetórias fracassadas, enquanto etapas espúrias podem ser reforçadas nas bem-sucedidas. Referimo-nos a este modo de falha como o problema da atribuição de crédito. Embora um remédio natural seja treinar um modelo de recompensa de processo, otimizar com precisão tais modelos para identificar etapas de raciocínio corretivas permanece um desafio. Introduzimos o Treinamento por Intervenção (InT), um paradigma de treinamento no qual o modelo realiza uma atribuição de crédito de granularidade fina em suas próprias trajetórias de raciocínio, propondo correções curtas e direcionadas que conduzem as trajetórias para uma recompensa maior. Utilizando soluções de referência comumente disponíveis em conjuntos de dados de raciocínio matemático e explorando o facto de que verificar uma solução gerada pelo modelo é mais fácil do que gerar uma correta a partir do zero, o modelo identifica o primeiro erro no seu raciocínio e propõe uma intervenção de etapa única para redirecionar a trajetória para a solução correta. Em seguida, aplicamos o ajuste fino supervisionado (SFT) ao *rollout on-policy* até ao ponto do erro concatenado com a intervenção, localizando o erro na etapa específica que causou a falha. Mostramos que o modelo resultante serve como uma inicialização muito melhor para o treinamento por RL. Após executar o InT e subsequente ajuste fino com RL, melhoramos a precisão em quase 14% em relação a um modelo base de 4B de parâmetros no IMO-AnswerBench, superando modelos *open-source* maiores, como o gpt-oss-20b.

English

Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.

InT: Intervenções Autopropostas Permitem Atribuição de Crédito no Raciocínio de LLMs

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

Resumo

Support