Rumo a um Depurador Neural para Python

Resumo

O treinamento de grandes modelos de linguagem (LLMs) em traços de execução de Python os ancora na execução de código e permite a previsão da execução linha por linha de programas Python inteiros, efetivamente transformando-os em interpretadores neurais (FAIR CodeGen Team et al., 2025). No entanto, os desenvolvedores raramente executam programas passo a passo; em vez disso, usam depuradores para interromper a execução em determinados pontos de interrupção e percorrer apenas as porções relevantes enquanto inspecionam ou modificam variáveis do programa. As abordagens de interpretadores neurais existentes carecem desse controle interativo. Para superar essa limitação, introduzimos os depuradores neurais: modelos de linguagem que emulam depuradores tradicionais, suportando operações como *stepping into*, *over* ou *out* de funções, bem como a definição de pontos de interrupção em linhas de código específicas. Demonstramos que os depuradores neurais — obtidos via *fine-tuning* de LLMs grandes ou pré-treinamento de modelos menores do zero — podem modelar de forma confiável tanto a execução direta (prevendo estados e saídas futuras) quanto a execução inversa (inferindo estados ou entradas anteriores) condicionadas às ações do depurador. Avaliados no CruxEval, nossos modelos alcançam um desempenho sólido em tarefas de previsão de saída e de entrada, demonstrando uma modelagem robusta de execução condicional. Nosso trabalho dá os primeiros passos rumo a futuros sistemas de codificação agentes, nos quais os depuradores neurais servem como um modelo de mundo para ambientes de depuração simulados, fornecendo *feedback* de execução ou permitindo que os agentes interajam com ferramentas reais de depuração. Essa capacidade estabelece a base para uma geração de código, compreensão de programas e depuração automatizada mais poderosas.

English

Training large language models (LLMs) on Python execution traces grounds them in code execution and enables the line-by-line execution prediction of whole Python programs, effectively turning them into neural interpreters (FAIR CodeGen Team et al., 2025). However, developers rarely execute programs step by step; instead, they use debuggers to stop execution at certain breakpoints and step through relevant portions only while inspecting or modifying program variables. Existing neural interpreter approaches lack such interactive control. To address this limitation, we introduce neural debuggers: language models that emulate traditional debuggers, supporting operations such as stepping into, over, or out of functions, as well as setting breakpoints at specific source lines. We show that neural debuggers -- obtained via fine-tuning large LLMs or pre-training smaller models from scratch -- can reliably model both forward execution (predicting future states and outputs) and inverse execution (inferring prior states or inputs) conditioned on debugger actions. Evaluated on CruxEval, our models achieve strong performance on both output and input prediction tasks, demonstrating robust conditional execution modeling. Our work takes first steps towards future agentic coding systems in which neural debuggers serve as a world model for simulated debugging environments, providing execution feedback or enabling agents to interact with real debugging tools. This capability lays the foundation for more powerful code generation, program understanding, and automated debugging.

Rumo a um Depurador Neural para Python

Towards a Neural Debugger for Python

Resumo

Support