Reparación de 7,400 Errores por 1$: Reparación Económica de Fallos en Sitios de Colapso
Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair
May 19, 2025
Autores: Han Zheng, Ilia Shumailov, Tianqi Fan, Aiden Hall, Mathias Payer
cs.AI
Resumen
El rápido avance de las técnicas de detección de errores ha llevado al descubrimiento de más vulnerabilidades de las que los desarrolladores pueden corregir de manera razonable, creando una necesidad urgente de métodos efectivos de Reparación Automatizada de Programas (APR, por sus siglas en inglés). Sin embargo, la complejidad de los errores modernos a menudo dificulta y hace poco confiable el análisis preciso de la causa raíz. Para abordar este desafío, proponemos la reparación en el sitio del fallo para simplificar la tarea de reparación mientras se mitiga el riesgo de explotación. Además, introducimos un enfoque de generación de parches guiado por plantillas que reduce significativamente el costo de tokens de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) manteniendo tanto la eficiencia como la efectividad.
Implementamos nuestro sistema prototipo, WILLIAMT, y lo evaluamos frente a herramientas APR de vanguardia. Nuestros resultados muestran que, cuando se combina con el agente de mejor rendimiento CodeRover-S, WILLIAMT reduce el costo de tokens en un 45.9% y aumenta la tasa de corrección de errores a un 73.5% (+29.6%) en ARVO, un punto de referencia de vulnerabilidades de software de código abierto de referencia. Además, demostramos que WILLIAMT puede funcionar de manera efectiva incluso sin acceso a LLMs de última generación: incluso un modelo local ejecutándose en un Mac M4 Mini logra una tasa de reparación razonable. Estos hallazgos resaltan la amplia aplicabilidad y escalabilidad de WILLIAMT.
English
The rapid advancement of bug-finding techniques has led to the discovery of
more vulnerabilities than developers can reasonably fix, creating an urgent
need for effective Automated Program Repair (APR) methods. However, the
complexity of modern bugs often makes precise root cause analysis difficult and
unreliable. To address this challenge, we propose crash-site repair to simplify
the repair task while still mitigating the risk of exploitation. In addition,
we introduce a template-guided patch generation approach that significantly
reduces the token cost of Large Language Models (LLMs) while maintaining both
efficiency and effectiveness.
We implement our prototype system, WILLIAMT, and evaluate it against
state-of-the-art APR tools. Our results show that, when combined with the
top-performing agent CodeRover-S, WILLIAMT reduces token cost by 45.9% and
increases the bug-fixing rate to 73.5% (+29.6%) on ARVO, a ground-truth open
source software vulnerabilities benchmark. Furthermore, we demonstrate that
WILLIAMT can function effectively even without access to frontier LLMs: even a
local model running on a Mac M4 Mini achieves a reasonable repair rate. These
findings highlight the broad applicability and scalability of WILLIAMT.Summary
AI-Generated Summary