Hacia un Depurador Neuronal para Python

Resumen

El entrenamiento de grandes modelos de lenguaje (LLM) con trazas de ejecución de Python los fundamenta en la ejecución de código y permite la predicción de la ejecución línea por línea de programas Python completos, convirtiéndolos efectivamente en intérpretes neuronales (FAIR CodeGen Team et al., 2025). Sin embargo, los desarrolladores rara vez ejecutan programas paso a paso; en su lugar, utilizan depuradores para detener la ejecución en ciertos puntos de interrupción y avanzar solo por las porciones relevantes mientras inspeccionan o modifican las variables del programa. Los enfoques existentes de intérpretes neuronales carecen de este control interactivo. Para abordar esta limitación, presentamos los depuradores neuronales: modelos de lenguaje que emulan a los depuradores tradicionales, soportando operaciones como ejecutar paso a paso entrando, salteando o saliendo de funciones, así como establecer puntos de interrupción en líneas de código fuente específicas. Demostramos que los depuradores neuronales —obtenidos mediante el ajuste fino de LLM grandes o el pre-entrenamiento desde cero de modelos más pequeños— pueden modelar de manera confiable tanto la ejecución directa (prediciendo estados y salidas futuras) como la ejecución inversa (infiriendo estados previos o entradas) condicionadas a las acciones del depurador. Evaluados en CruxEval, nuestros modelos logran un rendimiento sólido en tareas de predicción tanto de salidas como de entradas, lo que demuestra un modelado robusto de la ejecución condicional. Nuestro trabajo da los primeros pasos hacia futuros sistemas de codificación agenticos en los que los depuradores neuronales sirven como modelo del mundo para entornos de depuración simulados, proporcionando retroalimentación de ejecución o permitiendo a los agentes interactuar con herramientas de depuración reales. Esta capacidad sienta las bases para una generación de código, una comprensión de programas y una depuración automatizada más potentes.

English

Training large language models (LLMs) on Python execution traces grounds them in code execution and enables the line-by-line execution prediction of whole Python programs, effectively turning them into neural interpreters (FAIR CodeGen Team et al., 2025). However, developers rarely execute programs step by step; instead, they use debuggers to stop execution at certain breakpoints and step through relevant portions only while inspecting or modifying program variables. Existing neural interpreter approaches lack such interactive control. To address this limitation, we introduce neural debuggers: language models that emulate traditional debuggers, supporting operations such as stepping into, over, or out of functions, as well as setting breakpoints at specific source lines. We show that neural debuggers -- obtained via fine-tuning large LLMs or pre-training smaller models from scratch -- can reliably model both forward execution (predicting future states and outputs) and inverse execution (inferring prior states or inputs) conditioned on debugger actions. Evaluated on CruxEval, our models achieve strong performance on both output and input prediction tasks, demonstrating robust conditional execution modeling. Our work takes first steps towards future agentic coding systems in which neural debuggers serve as a world model for simulated debugging environments, providing execution feedback or enabling agents to interact with real debugging tools. This capability lays the foundation for more powerful code generation, program understanding, and automated debugging.

Hacia un Depurador Neuronal para Python

Towards a Neural Debugger for Python

Resumen

Support