정확한 디버깅 벤치마크: 모델이 디버깅 중인가, 재생성 중인가?
Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?
April 19, 2026
저자: Wang Bill Zhu, Miaosen Chai, Shangshang Wang, Yejia Liu, Song Bian, Honghua Dong, Willie Neiswanger, Robin Jia
cs.AI
초록
코드 완성과 달리 디버깅은 오류의 위치를 파악하고 표적 수정을 적용해야 합니다. 저희는 최신 LLM들이 디버깅 과정에서 종종 정확하지만 지나치게 수정된 해결책을 재생성한다는 점을 관찰했습니다. LLM이 정밀한 디버깅에 얼마나 근접했는지 평가하기 위해, 정밀도 중심 평가가 포함된 디버깅 벤치마크로 모든 코딩 데이터셋을 자동 변환하는 PDB(Precise Debugging Benchmark) 프레임워크를 소개합니다. PDB는 검증된 원자적 버그를 합성하고 이를 다중 버그 프로그램으로 구성하여 버그가 포함된 프로그램을 생성합니다. 또한, 필요한 수정이 얼마나 이루어졌는지와 해결된 버그의 수를 측정하는 두 가지 새로운 메트릭인 수정 수준 정밀도와 버그 수준 재현율을 정의합니다. 저희는 단일 라인 버그를 위한 PDB-Single-Hard와 다중 라인 버그를 위한 PDB-Multi라는 두 가지 평가 벤치마크를 공개합니다. 실험 결과, GPT-5.1-Codex 및 DeepSeek-V3.2-Thinking과 같은 최신 모델들은 단위 테스트 통과율이 76% 이상에 달하지만, 최소한의 디버깅을 수행하도록 명시적으로 지시한 경우에도 정밀도는 45% 미만으로 나타났습니다. 마지막으로, 반복적이고 에이전트 기반의 디버깅 전략이 정밀도나 재현율을 크게 개선하지 못함을 보여주며, 이는 코딩 모델의 사후 학습 파이프라인 재고의 필요성을 강조합니다.
English
Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we introduce the Precise Debugging Benchmark (PDB) framework, which automatically converts any coding dataset into a debugging benchmark with precision-aware evaluation. PDB generates buggy programs by synthesizing verified atomic bugs and composing them into multi-bug programs. We define two novel metrics, edit-level precision and bug-level recall, which measures how many necessary edits are made and how many bugs are resolved. We release two evaluation benchmarks: PDB-Single-Hard on single-line bugs, and PDB-Multi on multi-line bugs. Experiments show that frontier models, such as GPT-5.1-Codex and DeepSeek-V3.2-Thinking, achieve unit-test pass rates above 76% but exhibit precision below 45%, even when explicitly instructed to perform minimal debugging. Finally, we show that iterative and agentic debugging strategies do not substantially improve precision or recall, highlighting the need to rethink post-training pipelines for coding models.