Vers un débogueur neuronal pour Python

Résumé

L'entraînement de grands modèles de langage (LLM) sur des traces d'exécution Python les ancre dans l'exécution du code et permet la prédiction pas-à-pas de programmes Python entiers, les transformant effectivement en interpréteurs neuronaux (FAIR CodeGen Team et al., 2025). Cependant, les développeurs exécutent rarement les programmes étape par étape ; ils utilisent plutôt des débogueurs pour arrêter l'exécution à certains points d'arrêt et parcourir uniquement les portions pertinentes tout en inspectant ou modifiant les variables du programme. Les approches existantes d'interpréteurs neuronaux manquent d'un tel contrôle interactif. Pour remédier à cette limitation, nous introduisons les débogueurs neuronaux : des modèles de langage qui émulent les débogueurs traditionnels, prenant en charge des opérations telles que l'exécution pas à pas détaillée, pas à pas principal ou le pas à pas sortant, ainsi que le réglage de points d'arrêt sur des lignes de code spécifiques. Nous montrons que les débogueurs neuronaux — obtenus par micro-ajustement de grands LLM ou par pré-entraînement de modèles plus petits à partir de zéro — peuvent modéliser de manière fiable à la fois l'exécution directe (prédire les états et sorties futurs) et l'exécution inverse (inférer les états ou entrées antérieurs) conditionnées par les actions du débogueur. Évalués sur CruxEval, nos modèles obtiennent de solides performances sur les tâches de prédiction de sortie et d'entrée, démontrant une modélisation robuste de l'exécution conditionnelle. Notre travail constitue une première étape vers de futurs systèmes de codage agentiques dans lesquels les débogueurs neuronaux servent de modèle du monde pour des environnements de débogage simulés, fournissant un retour d'exécution ou permettant aux agents d'interagir avec de vrais outils de débogage. Cette capacité jette les bases d'une génération de code, d'une compréhension de programme et d'un débogage automatisé plus puissants.

English

Training large language models (LLMs) on Python execution traces grounds them in code execution and enables the line-by-line execution prediction of whole Python programs, effectively turning them into neural interpreters (FAIR CodeGen Team et al., 2025). However, developers rarely execute programs step by step; instead, they use debuggers to stop execution at certain breakpoints and step through relevant portions only while inspecting or modifying program variables. Existing neural interpreter approaches lack such interactive control. To address this limitation, we introduce neural debuggers: language models that emulate traditional debuggers, supporting operations such as stepping into, over, or out of functions, as well as setting breakpoints at specific source lines. We show that neural debuggers -- obtained via fine-tuning large LLMs or pre-training smaller models from scratch -- can reliably model both forward execution (predicting future states and outputs) and inverse execution (inferring prior states or inputs) conditioned on debugger actions. Evaluated on CruxEval, our models achieve strong performance on both output and input prediction tasks, demonstrating robust conditional execution modeling. Our work takes first steps towards future agentic coding systems in which neural debuggers serve as a world model for simulated debugging environments, providing execution feedback or enabling agents to interact with real debugging tools. This capability lays the foundation for more powerful code generation, program understanding, and automated debugging.

Vers un débogueur neuronal pour Python

Towards a Neural Debugger for Python

Résumé

Support