Punto de Referencia para Depuración Preciso: ¿Su Modelo Está Depurando o Regenerando?

Resumen

A diferencia de la finalización de código, la depuración requiere localizar fallos y aplicar ediciones dirigidas. Observamos que los LLMs de vanguardia a menudo regeneran soluciones correctas pero sobreditadas durante la depuración. Para evaluar cuán lejos están los LLMs de una depuración precisa, presentamos el marco de referencia *Precise Debugging Benchmark* (PDB), que convierte automáticamente cualquier conjunto de datos de programación en un benchmark de depuración con evaluación consciente de la precisión. PDB genera programas con errores mediante la síntesis de fallos atómicos verificados y su composición en programas con múltiples errores. Definimos dos métricas novedosas: la *precisión a nivel de edición* y la *exhaustividad a nivel de fallo*, que miden cuántas ediciones necesarias se realizan y cuántos errores se resuelven. Publicamos dos benchmarks de evaluación: PDB-Single-Hard, sobre errores de una sola línea, y PDB-Multi, sobre errores de múltiples líneas. Los experimentos muestran que los modelos de vanguardia, como GPT-5.1-Codex y DeepSeek-V3.2-Thinking, logran tasas de paso de pruebas unitarias superiores al 76%, pero exhiben una precisión inferior al 45%, incluso cuando se les instruye explícitamente para realizar una depuración mínima. Finalmente, demostramos que las estrategias de depuración iterativas y agentales no mejoran sustancialmente la precisión ni la exhaustividad, lo que subraya la necesidad de repensar los procesos de ajuste posterior para los modelos de programación.

English

Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we introduce the Precise Debugging Benchmark (PDB) framework, which automatically converts any coding dataset into a debugging benchmark with precision-aware evaluation. PDB generates buggy programs by synthesizing verified atomic bugs and composing them into multi-bug programs. We define two novel metrics, edit-level precision and bug-level recall, which measures how many necessary edits are made and how many bugs are resolved. We release two evaluation benchmarks: PDB-Single-Hard on single-line bugs, and PDB-Multi on multi-line bugs. Experiments show that frontier models, such as GPT-5.1-Codex and DeepSeek-V3.2-Thinking, achieve unit-test pass rates above 76% but exhibit precision below 45%, even when explicitly instructed to perform minimal debugging. Finally, we show that iterative and agentic debugging strategies do not substantially improve precision or recall, highlighting the need to rethink post-training pipelines for coding models.

Punto de Referencia para Depuración Preciso: ¿Su Modelo Está Depurando o Regenerando?

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Resumen

Support