Cuando "Correcto" No Es Seguro: ¿Podemos Confiar en los Parches Funcionalmente Correctos Generados por Agentes de Código?
When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?
October 15, 2025
Autores: Yibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen
cs.AI
Resumen
Los agentes de código son cada vez más confiados para corregir errores de manera autónoma en plataformas como GitHub, sin embargo, su evaluación de seguridad se centra casi exclusivamente en la corrección funcional. En este artículo, revelamos un nuevo tipo de amenaza para los agentes de código en el mundo real: los parches funcionalmente correctos pero vulnerables (FCV, por sus siglas en inglés), que pasan todos los casos de prueba pero contienen código vulnerable. Con nuestro FCV-Ataque propuesto, que puede ser deliberadamente creado por atacantes maliciosos o introducido implícitamente por desarrolladores benignos, demostramos que los modelos de lenguaje de última generación (LLM, por sus siglas en inglés) (por ejemplo, ChatGPT y Claude) y los andamiajes de agentes (por ejemplo, SWE-agent y OpenHands) son todos vulnerables a esta amenaza FCV; en 12 combinaciones de agente-modelo en SWE-Bench, el ataque solo requiere acceso de caja negra y una única consulta al agente de código para ejecutarse. Por ejemplo, para CWE-538 (vulnerabilidad de exposición de información), el FCV-Ataque alcanza una tasa de éxito del 40.7% en GPT-5 Mini + OpenHands. Nuestros resultados revelan una importante amenaza de seguridad pasada por alto por los paradigmas de evaluación actuales y urgen al desarrollo de defensas conscientes de la seguridad para los agentes de código.
English
Code agents are increasingly trusted to autonomously fix bugs on platforms
such as GitHub, yet their security evaluation focuses almost exclusively on
functional correctness. In this paper, we reveal a novel type of threat to
real-world code agents: Functionally Correct yet Vulnerable (FCV) patches,
which pass all test cases but contain vulnerable code. With our proposed
FCV-Attack, which can be deliberately crafted by malicious attackers or
implicitly introduced by benign developers, we show that SOTA LLMs (e.g.,
ChatGPT and Claude) and agent scaffolds (e.g., SWE-agent and OpenHands) are all
vulnerable to this FCV threat; across 12 agent-model combinations on SWE-Bench,
the attack only requires black-box access and a single query to the code agent
to perform the attack. For example, for CWE-538 (information exposure
vulnerability), the FCV-Attack attains an attack success rate of 40.7% on
GPT-5 Mini + OpenHands. Our results reveal an important security threat
overlooked by current evaluation paradigms and urge the development of
security-aware defenses for code agents.