Quando "Correto" Não É Seguro: Podemos Confiar em Correções Funcionalmente Corretas Geradas por Agentes de Código?
When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?
October 15, 2025
Autores: Yibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen
cs.AI
Resumo
Agentes de código estão sendo cada vez mais confiados para corrigir bugs de forma autônoma em plataformas como o GitHub, mas sua avaliação de segurança se concentra quase exclusivamente na correção funcional. Neste artigo, revelamos um novo tipo de ameaça a agentes de código no mundo real: patches Funcionalmente Corretos, mas Vulneráveis (FCV), que passam em todos os casos de teste, mas contêm código vulnerável. Com o nosso FCV-Ataque proposto, que pode ser deliberadamente criado por atacantes maliciosos ou implicitamente introduzido por desenvolvedores bem-intencionados, mostramos que LLMs de última geração (por exemplo, ChatGPT e Claude) e estruturas de agentes (por exemplo, SWE-agent e OpenHands) são todos vulneráveis a essa ameaça FCV; em 12 combinações de agente-modelo no SWE-Bench, o ataque requer apenas acesso de caixa preta e uma única consulta ao agente de código para ser executado. Por exemplo, para a CWE-538 (vulnerabilidade de exposição de informações), o FCV-Ataque alcança uma taxa de sucesso de 40,7% no GPT-5 Mini + OpenHands. Nossos resultados revelam uma importante ameaça de segurança negligenciada pelos paradigmas de avaliação atuais e exigem o desenvolvimento de defesas conscientes da segurança para agentes de código.
English
Code agents are increasingly trusted to autonomously fix bugs on platforms
such as GitHub, yet their security evaluation focuses almost exclusively on
functional correctness. In this paper, we reveal a novel type of threat to
real-world code agents: Functionally Correct yet Vulnerable (FCV) patches,
which pass all test cases but contain vulnerable code. With our proposed
FCV-Attack, which can be deliberately crafted by malicious attackers or
implicitly introduced by benign developers, we show that SOTA LLMs (e.g.,
ChatGPT and Claude) and agent scaffolds (e.g., SWE-agent and OpenHands) are all
vulnerable to this FCV threat; across 12 agent-model combinations on SWE-Bench,
the attack only requires black-box access and a single query to the code agent
to perform the attack. For example, for CWE-538 (information exposure
vulnerability), the FCV-Attack attains an attack success rate of 40.7% on
GPT-5 Mini + OpenHands. Our results reveal an important security threat
overlooked by current evaluation paradigms and urge the development of
security-aware defenses for code agents.