Präzises Debugging-Benchmark: Debuggt Ihr Modell oder regeneriert es?

Zusammenfassung

Im Gegensatz zur Code-Vervollständigung erfordert das Debugging die Lokalisierung von Fehlern und das Anwenden gezielter Änderungen. Wir beobachten, dass fortschrittliche LLMs beim Debugging häufig korrekte, aber überarbeitete Lösungen regenerieren. Um zu bewerten, wie weit LLMs vom präzisen Debugging entfernt sind, führen wir das Precise Debugging Benchmark (PDB)-Framework ein, das automatisch jeden Coding-Datensatz in einen Debugging-Benchmark mit präzisionsbewusster Auswertung umwandelt. PDB generiert fehlerhafte Programme, indem verifizierte atomare Fehler synthetisiert und zu Multi-Bug-Programmen kombiniert werden. Wir definieren zwei neuartige Metriken: Edit-Level-Precision (Änderungspräzision) und Bug-Level-Recall (Fehlerabdeckung), die messen, wie viele notwendige Änderungen vorgenommen werden und wie viele Fehler behoben werden. Wir veröffentlichen zwei Bewertungs-Benchmarks: PDB-Single-Hard für Einzeilenfehler und PDB-Multi für Mehrzeilenfehler. Experimente zeigen, dass Spitzenmodelle wie GPT-5.1-Codex und DeepSeek-V3.2-Thinking zwar Unit-Test-Bestandenquoten von über 76% erreichen, aber eine Präzision von unter 45% aufweisen, selbst wenn sie explizit angewiesen werden, minimales Debugging durchzuführen. Abschließend zeigen wir, dass iterative und agentenbasierte Debugging-Strategien die Präzision oder Abdeckung nicht wesentlich verbessern, was die Notwendigkeit unterstreicht, die Post-Training-Pipelines für Codierungsmodelle zu überdenken.

English

Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we introduce the Precise Debugging Benchmark (PDB) framework, which automatically converts any coding dataset into a debugging benchmark with precision-aware evaluation. PDB generates buggy programs by synthesizing verified atomic bugs and composing them into multi-bug programs. We define two novel metrics, edit-level precision and bug-level recall, which measures how many necessary edits are made and how many bugs are resolved. We release two evaluation benchmarks: PDB-Single-Hard on single-line bugs, and PDB-Multi on multi-line bugs. Experiments show that frontier models, such as GPT-5.1-Codex and DeepSeek-V3.2-Thinking, achieve unit-test pass rates above 76% but exhibit precision below 45%, even when explicitly instructed to perform minimal debugging. Finally, we show that iterative and agentic debugging strategies do not substantially improve precision or recall, highlighting the need to rethink post-training pipelines for coding models.

Präzises Debugging-Benchmark: Debuggt Ihr Modell oder regeneriert es?

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Zusammenfassung

Support