Corrigindo 7.400 Bugs por 1$: Reparo de Programas com Falhas a Baixo Custo

Resumo

O rápido avanço das técnicas de detecção de bugs levou à descoberta de mais vulnerabilidades do que os desenvolvedores podem razoavelmente corrigir, criando uma necessidade urgente de métodos eficazes de Reparo Automatizado de Programas (APR). No entanto, a complexidade dos bugs modernos frequentemente torna a análise precisa da causa raiz difícil e pouco confiável. Para enfrentar esse desafio, propomos o reparo no local da falha (crash-site repair) para simplificar a tarefa de reparo, ao mesmo tempo em que mitiga o risco de exploração. Além disso, introduzimos uma abordagem de geração de patches guiada por templates que reduz significativamente o custo de tokens dos Modelos de Linguagem de Grande Escala (LLMs), mantendo tanto a eficiência quanto a eficácia. Implementamos nosso sistema protótipo, WILLIAMT, e o avaliamos em comparação com as ferramentas de APR mais avançadas. Nossos resultados mostram que, quando combinado com o agente de melhor desempenho, CodeRover-S, o WILLIAMT reduz o custo de tokens em 45,9% e aumenta a taxa de correção de bugs para 73,5% (+29,6%) no ARVO, um benchmark de vulnerabilidades de software de código aberto com base em dados reais. Além disso, demonstramos que o WILLIAMT pode funcionar de forma eficaz mesmo sem acesso a LLMs de ponta: até mesmo um modelo local em execução em um Mac M4 Mini alcança uma taxa de reparo razoável. Esses achados destacam a ampla aplicabilidade e escalabilidade do WILLIAMT.

English

The rapid advancement of bug-finding techniques has led to the discovery of more vulnerabilities than developers can reasonably fix, creating an urgent need for effective Automated Program Repair (APR) methods. However, the complexity of modern bugs often makes precise root cause analysis difficult and unreliable. To address this challenge, we propose crash-site repair to simplify the repair task while still mitigating the risk of exploitation. In addition, we introduce a template-guided patch generation approach that significantly reduces the token cost of Large Language Models (LLMs) while maintaining both efficiency and effectiveness. We implement our prototype system, WILLIAMT, and evaluate it against state-of-the-art APR tools. Our results show that, when combined with the top-performing agent CodeRover-S, WILLIAMT reduces token cost by 45.9% and increases the bug-fixing rate to 73.5% (+29.6%) on ARVO, a ground-truth open source software vulnerabilities benchmark. Furthermore, we demonstrate that WILLIAMT can function effectively even without access to frontier LLMs: even a local model running on a Mac M4 Mini achieves a reasonable repair rate. These findings highlight the broad applicability and scalability of WILLIAMT.

Corrigindo 7.400 Bugs por 1$: Reparo de Programas com Falhas a Baixo Custo

Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair

Resumo

Support