Selbstausführungssimulation verbessert Codierungsmodelle

Zusammenfassung

Eine vielversprechende Forschungsrichtung, um großsprachlichen Modellen (LLMs) zu ermöglichen, durchgängig korrekten Code zu generieren, besteht darin, ihre Unfähigkeit anzugehen, die Programmausführung richtig einzuschätzen, insbesondere für den von ihnen generierten Code. In dieser Arbeit zeigen wir, dass Code-LLMs trainiert werden können, die Programmausführung schrittweise zu simulieren, und dass diese Fähigkeit genutzt werden kann, um die Leistung im Bereich des kompetitiven Programmierens zu verbessern. Unser Ansatz kombiniert überwachtes Feinjustieren anhand natürlicher Sprachausführungsspuren – textueller Erklärungen, die auf der tatsächlichen Ausführung basieren – mit bestärkendem Lernen unter Verwendung verifizierbarer Belohnungen. Wir führen zwei komplementäre Ziele ein: die Ausgabevorhersage bei gegebenem Code und Eingaben sowie das Lösen von Aufgaben des kompetitiven Programmierens mit entweder tatsächlicher oder selbstvorhergesagter Ausführungsrückmeldung. Diese Ziele ermöglichen es Modellen, eine Selbstverifikation über mehrere Kandidatenlösungen hinweg durchzuführen und iterativ durch Simulation der Testausführung Selbstkorrekturen vorzunehmen. Über mehrere Benchmarks für kompetitives Programmieren hinweg erzielt unsere Methode durchgängige Verbesserungen gegenüber standardmäßigen Reasoning-Ansätzen. Darüber hinaus präsentieren wir Ablationstudien und Analysen, um die Rolle der Ausführungssimulation und ihre Grenzen zu erläutern.

English

A promising research direction in enabling LLMs to generate consistently correct code involves addressing their inability to properly estimate program execution, particularly for code they generate. In this work, we demonstrate that Code LLMs can be trained to simulate program execution in a step-by-step manner and that this capability can be leveraged to improve competitive programming performance. Our approach combines supervised fine-tuning on natural language execution traces, textual explanations grounded in true execution, with reinforcement learning using verifiable rewards. We introduce two complementary objectives: output prediction given code and inputs, and solving competitive programming tasks with either ground-truth or self-predicted execution feedback. These objectives enable models to perform self-verification over multiple candidate solutions, and iterative self-fixing by simulating test execution. Across multiple competitive programming benchmarks, our method yields consistent improvements over standard reasoning approaches. We further present ablations and analysis to elucidate the role of execution simulation and its limitations.

Selbstausführungssimulation verbessert Codierungsmodelle

Self-Execution Simulation Improves Coding Models

Zusammenfassung

Support