Reparación de 7,400 Errores por 1$: Reparación Económica de Fallos en Sitios de Colapso

Resumen

El rápido avance de las técnicas de detección de errores ha llevado al descubrimiento de más vulnerabilidades de las que los desarrolladores pueden corregir de manera razonable, creando una necesidad urgente de métodos efectivos de Reparación Automatizada de Programas (APR, por sus siglas en inglés). Sin embargo, la complejidad de los errores modernos a menudo dificulta y hace poco confiable el análisis preciso de la causa raíz. Para abordar este desafío, proponemos la reparación en el sitio del fallo para simplificar la tarea de reparación mientras se mitiga el riesgo de explotación. Además, introducimos un enfoque de generación de parches guiado por plantillas que reduce significativamente el costo de tokens de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) manteniendo tanto la eficiencia como la efectividad. Implementamos nuestro sistema prototipo, WILLIAMT, y lo evaluamos frente a herramientas APR de vanguardia. Nuestros resultados muestran que, cuando se combina con el agente de mejor rendimiento CodeRover-S, WILLIAMT reduce el costo de tokens en un 45.9% y aumenta la tasa de corrección de errores a un 73.5% (+29.6%) en ARVO, un punto de referencia de vulnerabilidades de software de código abierto de referencia. Además, demostramos que WILLIAMT puede funcionar de manera efectiva incluso sin acceso a LLMs de última generación: incluso un modelo local ejecutándose en un Mac M4 Mini logra una tasa de reparación razonable. Estos hallazgos resaltan la amplia aplicabilidad y escalabilidad de WILLIAMT.

English

The rapid advancement of bug-finding techniques has led to the discovery of more vulnerabilities than developers can reasonably fix, creating an urgent need for effective Automated Program Repair (APR) methods. However, the complexity of modern bugs often makes precise root cause analysis difficult and unreliable. To address this challenge, we propose crash-site repair to simplify the repair task while still mitigating the risk of exploitation. In addition, we introduce a template-guided patch generation approach that significantly reduces the token cost of Large Language Models (LLMs) while maintaining both efficiency and effectiveness. We implement our prototype system, WILLIAMT, and evaluate it against state-of-the-art APR tools. Our results show that, when combined with the top-performing agent CodeRover-S, WILLIAMT reduces token cost by 45.9% and increases the bug-fixing rate to 73.5% (+29.6%) on ARVO, a ground-truth open source software vulnerabilities benchmark. Furthermore, we demonstrate that WILLIAMT can function effectively even without access to frontier LLMs: even a local model running on a Mac M4 Mini achieves a reasonable repair rate. These findings highlight the broad applicability and scalability of WILLIAMT.

Reparación de 7,400 Errores por 1$: Reparación Económica de Fallos en Sitios de Colapso

Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair

Resumen

Support