Precisie Debugging Benchmark: Debugt of Regeneert Uw Model?

Samenvatting

In tegenstelling tot code-completie vereist debugging het lokaliseren van fouten en het toepassen van gerichte aanpassingen. Wij observeren dat geavanceerde LLM's vaak correcte maar overmatig bewerkte oplossingen regenereren tijdens het debuggen. Om te evalueren hoe ver LLM's verwijderd zijn van precieze debugging, introduceren we het *Precise Debugging Benchmark* (PDB)-raamwerk, dat automatisch elke codeerdataset omzet in een debugbenchmark met precisiebewuste evaluatie. PDB genereert programma's met bugs door geverifieerde atomare bugs te synthetiseren en deze samen te stellen tot programma's met meerdere bugs. We definiëren twee nieuwe metrieken: *edit-level precision* (precisie op bewerkingsniveau) en *bug-level recall* (terugvindbaarheid op bugniveau), die meten hoeveel noodzakelijke bewerkingen worden gemaakt en hoeveel bugs worden opgelost. We brengen twee evaluatiebenchmarks uit: PDB-Single-Hard voor bugs in één regel, en PDB-Multi voor bugs over meerdere regels. Experimenten tonen aan dat geavanceerde modellen, zoals GPT-5.1-Codex en DeepSeek-V3.2-Thinking, slaagpercentages voor unittests behalen boven de 76%, maar een precisie vertonen van minder dan 45%, zelfs wanneer expliciet geïnstrueerd om minimaal te debuggen. Ten slotte tonen we aan dat iteratieve en agent-gebaseerde debugstrategieën de precisie of terugvindbaarheid niet substantieel verbeteren, wat de noodzaak benadrukt om de pipelines na de training voor coderingsmodellen te herzien.

English

Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we introduce the Precise Debugging Benchmark (PDB) framework, which automatically converts any coding dataset into a debugging benchmark with precision-aware evaluation. PDB generates buggy programs by synthesizing verified atomic bugs and composing them into multi-bug programs. We define two novel metrics, edit-level precision and bug-level recall, which measures how many necessary edits are made and how many bugs are resolved. We release two evaluation benchmarks: PDB-Single-Hard on single-line bugs, and PDB-Multi on multi-line bugs. Experiments show that frontier models, such as GPT-5.1-Codex and DeepSeek-V3.2-Thinking, achieve unit-test pass rates above 76% but exhibit precision below 45%, even when explicitly instructed to perform minimal debugging. Finally, we show that iterative and agentic debugging strategies do not substantially improve precision or recall, highlighting the need to rethink post-training pipelines for coding models.

Precisie Debugging Benchmark: Debugt of Regeneert Uw Model?

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Samenvatting

Support