ChatPaper.aiChatPaper

1달러로 7,400개의 버그 수정: 저비용 충돌 지점 프로그램 복구

Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair

May 19, 2025
저자: Han Zheng, Ilia Shumailov, Tianqi Fan, Aiden Hall, Mathias Payer
cs.AI

초록

버그 탐지 기술의 급속한 발전으로 개발자들이 합리적으로 수정할 수 있는 것보다 더 많은 취약점이 발견되면서, 효과적인 자동 프로그램 수리(Automated Program Repair, APR) 방법에 대한 시급한 필요성이 대두되었습니다. 그러나 현대 버그의 복잡성은 정확한 근본 원인 분석을 어렵고 신뢰할 수 없게 만드는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 수리 작업을 단순화하면서도 악용 위험을 완화할 수 있는 충돌 지점 수리(crash-site repair)를 제안합니다. 또한, 대규모 언어 모델(Large Language Models, LLMs)의 토큰 비용을 크게 줄이면서도 효율성과 효과성을 유지하는 템플릿 기반 패치 생성 접근법을 소개합니다. 우리는 프로토타입 시스템인 WILLIAMT를 구현하고 이를 최신 APR 도구들과 비교 평가했습니다. 그 결과, 최고 성능을 보이는 에이전트인 CodeRover-S와 결합했을 때, WILLIAMT는 토큰 비용을 45.9% 줄이고, 오픈 소스 소프트웨어 취약점 벤치마크인 ARVO에서 버그 수정률을 73.5%(+29.6%)로 높였습니다. 또한, WILLIAMT는 최첨단 LLMs에 접근하지 않더라도 효과적으로 기능할 수 있음을 입증했습니다: Mac M4 Mini에서 실행되는 로컬 모델도 합리적인 수리율을 달성했습니다. 이러한 결과는 WILLIAMT의 광범위한 적용 가능성과 확장성을 강조합니다.
English
The rapid advancement of bug-finding techniques has led to the discovery of more vulnerabilities than developers can reasonably fix, creating an urgent need for effective Automated Program Repair (APR) methods. However, the complexity of modern bugs often makes precise root cause analysis difficult and unreliable. To address this challenge, we propose crash-site repair to simplify the repair task while still mitigating the risk of exploitation. In addition, we introduce a template-guided patch generation approach that significantly reduces the token cost of Large Language Models (LLMs) while maintaining both efficiency and effectiveness. We implement our prototype system, WILLIAMT, and evaluate it against state-of-the-art APR tools. Our results show that, when combined with the top-performing agent CodeRover-S, WILLIAMT reduces token cost by 45.9% and increases the bug-fixing rate to 73.5% (+29.6%) on ARVO, a ground-truth open source software vulnerabilities benchmark. Furthermore, we demonstrate that WILLIAMT can function effectively even without access to frontier LLMs: even a local model running on a Mac M4 Mini achieves a reasonable repair rate. These findings highlight the broad applicability and scalability of WILLIAMT.

Summary

AI-Generated Summary

PDF51May 21, 2025