Benchmark de Depuração Preciso: Seu Modelo Está Depurando ou Regenerando?

Resumo

Ao contrário da conclusão de código, a depuração requer a localização de falhas e a aplicação de edições direcionadas. Observamos que os LLMs de fronteira frequentemente regeneram soluções corretas, mas supereditadas, durante a depuração. Para avaliar o quão distantes os LLMs estão de uma depuração precisa, introduzimos o framework Precise Debugging Benchmark (PDB), que converte automaticamente qualquer conjunto de dados de codificação em um benchmark de depuração com avaliação sensível à precisão. O PDB gera programas com bugs sintetizando falhas atômicas verificadas e as compondo em programas com múltiplos bugs. Definimos duas novas métricas, a precisão a nível de edição e o recall a nível de bug, que medem quantas edições necessárias são feitas e quantos bugs são resolvidos. Lançamos dois benchmarks de avaliação: PDB-Single-Hard, com bugs de linha única, e PDB-Multi, com bugs de múltiplas linhas. Experimentos mostram que modelos de fronteira, como GPT-5.1-Codex e DeepSeek-V3.2-Thinking, alcançam taxas de aprovação em testes unitários acima de 76%, mas exibem precisão abaixo de 45%, mesmo quando explicitamente instruídos a realizar uma depuração mínima. Por fim, demonstramos que estratégias de depuração iterativas e agentivas não melhoram substancialmente a precisão ou o recall, destacando a necessidade de repensar os pipelines de pós-treinamento para modelos de codificação.

English

Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we introduce the Precise Debugging Benchmark (PDB) framework, which automatically converts any coding dataset into a debugging benchmark with precision-aware evaluation. PDB generates buggy programs by synthesizing verified atomic bugs and composing them into multi-bug programs. We define two novel metrics, edit-level precision and bug-level recall, which measures how many necessary edits are made and how many bugs are resolved. We release two evaluation benchmarks: PDB-Single-Hard on single-line bugs, and PDB-Multi on multi-line bugs. Experiments show that frontier models, such as GPT-5.1-Codex and DeepSeek-V3.2-Thinking, achieve unit-test pass rates above 76% but exhibit precision below 45%, even when explicitly instructed to perform minimal debugging. Finally, we show that iterative and agentic debugging strategies do not substantially improve precision or recall, highlighting the need to rethink post-training pipelines for coding models.

Benchmark de Depuração Preciso: Seu Modelo Está Depurando ou Regenerando?

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Resumo

Support