Benchmark de Débogage Précieux : Votre Modèle Débogue-t-il ou Régénère-t-il ?

Résumé

Contrairement à la complétion de code, le débogage nécessite de localiser les fautes et d'appliquer des modifications ciblées. Nous observons que les LLM de pointe régénèrent souvent des solutions correctes mais sureditées lors du débogage. Pour évaluer l'écart des LLM par rapport à un débogage précis, nous introduisons le cadre *Precise Debugging Benchmark* (PDB), qui convertit automatiquement tout ensemble de données de codage en un benchmark de débogage avec une évaluation sensible à la précision. PDB génère des programmes bogués en synthétisant des bogues atomiques vérifiés et en les composant en programmes multi-bogues. Nous définissons deux nouvelles métriques : la précision au niveau de l'édition et le rappel au niveau du bogue, qui mesurent respectivement le nombre de modifications nécessaires effectuées et le nombre de bogues résolus. Nous publions deux benchmarks d'évaluation : PDB-Single-Hard sur les bogues monolignes et PDB-Multi sur les bogues multilignes. Les expériences montrent que les modèles de pointe, tels que GPT-5.1-Codex et DeepSeek-V3.2-Thinking, atteignent des taux de réussite aux tests unitaires supérieurs à 76 %, mais affichent une précision inférieure à 45 %, même lorsqu'ils sont explicitement invités à effectuer un débogage minimal. Enfin, nous montrons que les stratégies de débogage itératif et agentique n'améliorent pas substantiellement la précision ou le rappel, soulignant la nécessité de repenser les pipelines de post-formation pour les modèles de codage.

English

Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we introduce the Precise Debugging Benchmark (PDB) framework, which automatically converts any coding dataset into a debugging benchmark with precision-aware evaluation. PDB generates buggy programs by synthesizing verified atomic bugs and composing them into multi-bug programs. We define two novel metrics, edit-level precision and bug-level recall, which measures how many necessary edits are made and how many bugs are resolved. We release two evaluation benchmarks: PDB-Single-Hard on single-line bugs, and PDB-Multi on multi-line bugs. Experiments show that frontier models, such as GPT-5.1-Codex and DeepSeek-V3.2-Thinking, achieve unit-test pass rates above 76% but exhibit precision below 45%, even when explicitly instructed to perform minimal debugging. Finally, we show that iterative and agentic debugging strategies do not substantially improve precision or recall, highlighting the need to rethink post-training pipelines for coding models.

Benchmark de Débogage Précieux : Votre Modèle Débogue-t-il ou Régénère-t-il ?

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Résumé

Support