Auf dem Weg zu einem neuronalen Debugger für Python

Zusammenfassung

Das Training großer Sprachmodelle (LLMs) an Python-Ausführungsspuren verankert sie in der Codeausführung und ermöglicht die zeilenweise Ausführungsvorhersage kompletter Python-Programme, wodurch sie effektiv zu neuronalen Interpretern werden (FAIR CodeGen Team et al., 2025). Entwickler führen Programme jedoch selten Schritt für Schritt aus; stattdessen nutzen sie Debugger, um die Ausführung an bestimmten Haltepunkten anzuhalten und nur relevante Abschnitte schrittweise zu durchlaufen, während sie Programmvariablen inspizieren oder modifizieren. Bestehende neuronale Interpreter-Ansätze verfügen nicht über eine solche interaktive Steuerung. Um diese Einschränkung zu adressieren, führen wir neuronale Debugger ein: Sprachmodelle, die traditionelle Debugger emulieren und Operationen wie Schrittweise-Ausführung-in-Funktionen-hinein, -darüber-hinweg oder -heraus sowie das Setzen von Haltepunkten an bestimmten Quellcodezeilen unterstützen. Wir zeigen, dass neuronale Debugger – erhalten durch Feinabstimmung großer LLMs oder Vortraining kleinerer Modelle von Grund auf – sowohl die Vorwärtsausführung (Vorhersage zukünftiger Zustände und Ausgaben) als auch die inverse Ausführung (Rückschluss auf vorherige Zustände oder Eingaben) zuverlässig modellieren können, bedingt durch Debugger-Aktionen. Evaluierungen auf CruxEval zeigen, dass unsere Modelle bei Ausgabe- und Eingabevorhersageaufgaben starke Leistung erzielen und eine robuste bedingte Ausführungsmodellierung demonstrieren. Unsere Arbeit unternimmt erste Schritte in Richtung zukünftiger agentenbasierter Codiersysteme, in denen neuronale Debugger als Weltmodelle für simulierte Debugging-Umgebungen dienen, um Ausführungsfeedback zu liefern oder Agenten die Interaktion mit echten Debugging-Tools zu ermöglichen. Diese Fähigkeit legt den Grundstein für leistungsfähigere Code-Generierung, Programmunterstützung und automatisiertes Debugging.

English

Training large language models (LLMs) on Python execution traces grounds them in code execution and enables the line-by-line execution prediction of whole Python programs, effectively turning them into neural interpreters (FAIR CodeGen Team et al., 2025). However, developers rarely execute programs step by step; instead, they use debuggers to stop execution at certain breakpoints and step through relevant portions only while inspecting or modifying program variables. Existing neural interpreter approaches lack such interactive control. To address this limitation, we introduce neural debuggers: language models that emulate traditional debuggers, supporting operations such as stepping into, over, or out of functions, as well as setting breakpoints at specific source lines. We show that neural debuggers -- obtained via fine-tuning large LLMs or pre-training smaller models from scratch -- can reliably model both forward execution (predicting future states and outputs) and inverse execution (inferring prior states or inputs) conditioned on debugger actions. Evaluated on CruxEval, our models achieve strong performance on both output and input prediction tasks, demonstrating robust conditional execution modeling. Our work takes first steps towards future agentic coding systems in which neural debuggers serve as a world model for simulated debugging environments, providing execution feedback or enabling agents to interact with real debugging tools. This capability lays the foundation for more powerful code generation, program understanding, and automated debugging.

Auf dem Weg zu einem neuronalen Debugger für Python

Towards a Neural Debugger for Python

Zusammenfassung

Support