Benchmark di Debugging di Precisione: Il Tuo Modello Sta Debbugando o Rigenerando?

Abstract

A differenza del completamento del codice, il debug richiede la localizzazione dei difetti e l'applicazione di modifiche mirate. Osserviamo che i modelli LLM all'avanguardia spesso rigenerano soluzioni corrette ma eccessivamente modificate durante il debug. Per valutare quanto i modelli LLM siano distanti da un debug preciso, introduciamo il framework Precise Debugging Benchmark (PDB), che converte automaticamente qualsiasi dataset di codifica in un benchmark di debug con una valutazione basata sulla precisione. PDB genera programmi con bug sintetizzando errori atomici verificati e componendoli in programmi con errori multipli. Definiamo due metriche innovative: la precisione a livello di modifica e il richiamo a livello di bug, che misurano rispettivamente quante modifiche necessarie vengono apportate e quanti bug vengono risolti. Rilasciamo due benchmark di valutazione: PDB-Single-Hard per bug su singola riga e PDB-Multi per bug su più righe. Gli esperimenti mostrano che i modelli all'avanguardia, come GPT-5.1-Codex e DeepSeek-V3.2-Thinking, raggiungono tassi di superamento dei test unitari superiori al 76%, ma presentano una precisione inferiore al 45%, anche quando viene loro esplicitamente richiesto di eseguire un debug minimale. Infine, dimostriamo che le strategie di debug iterative e agent-based non migliorano sostanzialmente la precisione o il richiamo, evidenziando la necessità di ripensare le pipeline di post-addestramento per i modelli di codifica.

English

Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we introduce the Precise Debugging Benchmark (PDB) framework, which automatically converts any coding dataset into a debugging benchmark with precision-aware evaluation. PDB generates buggy programs by synthesizing verified atomic bugs and composing them into multi-bug programs. We define two novel metrics, edit-level precision and bug-level recall, which measures how many necessary edits are made and how many bugs are resolved. We release two evaluation benchmarks: PDB-Single-Hard on single-line bugs, and PDB-Multi on multi-line bugs. Experiments show that frontier models, such as GPT-5.1-Codex and DeepSeek-V3.2-Thinking, achieve unit-test pass rates above 76% but exhibit precision below 45%, even when explicitly instructed to perform minimal debugging. Finally, we show that iterative and agentic debugging strategies do not substantially improve precision or recall, highlighting the need to rethink post-training pipelines for coding models.

Benchmark di Debugging di Precisione: Il Tuo Modello Sta Debbugando o Rigenerando?

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Abstract

Support