1ドルで7,400のバグを修正:低コストなクラッシュサイトプログラム修復
Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair
May 19, 2025
著者: Han Zheng, Ilia Shumailov, Tianqi Fan, Aiden Hall, Mathias Payer
cs.AI
要旨
バグ発見技術の急速な進展により、開発者が合理的に修正できる数を上回る脆弱性が発見され、効果的な自動プログラム修復(APR)手法の緊急な必要性が生じている。しかし、現代のバグの複雑さは、正確な根本原因分析を困難かつ信頼性の低いものにしている。この課題に対処するため、我々はリスクの軽減を図りつつ修復タスクを簡素化するクラッシュサイト修復を提案する。さらに、大規模言語モデル(LLM)のトークンコストを大幅に削減しつつ、効率性と有効性を維持するテンプレートガイド型パッチ生成アプローチを導入する。
我々はプロトタイプシステム「WILLIAMT」を実装し、最先端のAPRツールと比較評価を行った。その結果、最高性能のエージェントであるCodeRover-Sと組み合わせた場合、WILLIAMTはトークンコストを45.9%削減し、オープンソースソフトウェアの脆弱性ベンチマークであるARVOにおいてバグ修正率を73.5%(+29.6%)に向上させることが示された。さらに、WILLIAMTは最先端のLLMへのアクセスがなくても効果的に機能することが実証された。Mac M4 Mini上で動作するローカルモデルでも、妥当な修復率を達成することが確認された。これらの知見は、WILLIAMTの広範な適用性とスケーラビリティを強調するものである。
English
The rapid advancement of bug-finding techniques has led to the discovery of
more vulnerabilities than developers can reasonably fix, creating an urgent
need for effective Automated Program Repair (APR) methods. However, the
complexity of modern bugs often makes precise root cause analysis difficult and
unreliable. To address this challenge, we propose crash-site repair to simplify
the repair task while still mitigating the risk of exploitation. In addition,
we introduce a template-guided patch generation approach that significantly
reduces the token cost of Large Language Models (LLMs) while maintaining both
efficiency and effectiveness.
We implement our prototype system, WILLIAMT, and evaluate it against
state-of-the-art APR tools. Our results show that, when combined with the
top-performing agent CodeRover-S, WILLIAMT reduces token cost by 45.9% and
increases the bug-fixing rate to 73.5% (+29.6%) on ARVO, a ground-truth open
source software vulnerabilities benchmark. Furthermore, we demonstrate that
WILLIAMT can function effectively even without access to frontier LLMs: even a
local model running on a Mac M4 Mini achieves a reasonable repair rate. These
findings highlight the broad applicability and scalability of WILLIAMT.Summary
AI-Generated Summary