La simulation d'auto-exécution améliore les modèles de codage

Résumé

Une voie de recherche prometteuse pour permettre aux LLM de générer du code correct de manière constante consiste à remédier à leur incapacité à estimer correctement l'exécution des programmes, en particulier pour le code qu'ils génèrent. Dans ce travail, nous démontrons que les Code LLM peuvent être entraînés à simuler l'exécution des programmes étape par étape et que cette capacité peut être exploitée pour améliorer les performances en programmation compétitive. Notre approche combine un fine-tuning supervisé sur des traces d'exécution en langage naturel, c'est-à-dire des explications textuelles ancrées dans l'exécution réelle, avec un apprentissage par renforcement utilisant des récompenses vérifiables. Nous introduisons deux objectifs complémentaires : la prédiction de la sortie étant donné le code et les entrées, et la résolution de tâches de programmation compétitive avec un retour d'exécution provenant soit de la vérité terrain, soit d'une auto-prédiction. Ces objectifs permettent aux modèles d'effectuer une auto-vérification sur plusieurs solutions candidates et une auto-correction itérative en simulant l'exécution de tests. Sur plusieurs benchmarks de programmation compétitive, notre méthode apporte des améliorations constantes par rapport aux approches de raisonnement standard. Nous présentons en outre des études d'ablation et des analyses pour élucider le rôle de la simulation d'exécution et ses limites.

English

A promising research direction in enabling LLMs to generate consistently correct code involves addressing their inability to properly estimate program execution, particularly for code they generate. In this work, we demonstrate that Code LLMs can be trained to simulate program execution in a step-by-step manner and that this capability can be leveraged to improve competitive programming performance. Our approach combines supervised fine-tuning on natural language execution traces, textual explanations grounded in true execution, with reinforcement learning using verifiable rewards. We introduce two complementary objectives: output prediction given code and inputs, and solving competitive programming tasks with either ground-truth or self-predicted execution feedback. These objectives enable models to perform self-verification over multiple candidate solutions, and iterative self-fixing by simulating test execution. Across multiple competitive programming benchmarks, our method yields consistent improvements over standard reasoning approaches. We further present ablations and analysis to elucidate the role of execution simulation and its limitations.

La simulation d'auto-exécution améliore les modèles de codage

Self-Execution Simulation Improves Coding Models

Résumé

Support