Selbstvorgeschlagene Interventionen ermöglichen Kredit-Zuschreibung in der Schlussfolgerung von großen Sprachmodellen

papers.abstract

Outcome-reward Reinforcement Learning (RL) hat sich als wirksam erwiesen, um die Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern. Standard-RL weist jedoch Belohnungen nur auf Ebene der endgültigen Antwort zu, bestraft also gesamte Reasoning-Pfade, wenn das Ergebnis falsch ist, und verstärkt alle Schritte gleichmäßig, wenn es korrekt ist. In der Folge können korrekte Zwischenschritte in fehlgeschlagenen Pfaden unterdrückt werden, während irrelevante Schritte in erfolgreichen Pfaden verstärkt werden. Wir bezeichnen dieses Problem als Credit-Assignment-Problem. Eine naheliegende Lösung ist das Training eines Prozess-Belohnungsmodells, doch die genaue Optimierung solcher Modelle zur Identifikation korrigierender Reasoning-Schritte bleibt herausfordernd. Wir stellen Intervention Training (InT) vor, ein Trainingsparadigma, bei dem das Modell eine feingranulare Credit-Zuweisung für seine eigenen Reasoning-Pfade vornimmt, indem es kurze, gezielte Korrekturen vorschlägt, die die Trajektorie in Richtung höherer Belohnung lenken. Unter Nutzung von Referenzlösungen, die in mathematischen Reasoning-Datensätzen commonly verfügbar sind, und der Tatsache, dass die Verifikation einer modellgenerierten Lösung einfacher ist als die Generierung einer korrekten Lösung von Grund auf, identifiziert das Modell den ersten Fehler in seiner Reasoning-Kette und schlägt eine Einzelschritt-Intervention vor, um die Trajektorie zur korrekten Lösung umzulenken. Anschließend wenden wir Supervised Fine-Tuning (SFT) auf den On-Policy-Pfad bis zum Fehlerpunkt, verkettet mit der Intervention, an, wodurch der Fehler auf den spezifischen Schritt lokalisiert wird, der zum Scheitern führte. Wir zeigen, dass das resultierende Modell eine deutlich bessere Initialisierung für das RL-Training darstellt. Nach der Anwendung von InT und anschließendem Fine-Tuning mit RL verbessern wir die Genauigkeit auf IMO-AnswerBench um fast 14 % gegenüber einem 4B-Parameter-Basismodell und übertreffen damit größere Open-Source-Modelle wie gpt-oss-20b.

English

Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.

Selbstvorgeschlagene Interventionen ermöglichen Kredit-Zuschreibung in der Schlussfolgerung von großen Sprachmodellen

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

papers.abstract

Support