Quando "Corretto" Non È Sicuro: Possiamo Fidarci delle Patch Funzionalmente Corrette Generate dagli Agenti di Codice?
When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?
October 15, 2025
Autori: Yibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen
cs.AI
Abstract
Gli agenti di codice sono sempre più affidati per correggere autonomamente i bug su piattaforme come GitHub, tuttavia la loro valutazione in termini di sicurezza si concentra quasi esclusivamente sulla correttezza funzionale. In questo articolo, riveliamo un nuovo tipo di minaccia per gli agenti di codice nel mondo reale: le patch Funzionalmente Corrette ma Vulnerabili (FCV), che superano tutti i casi di test ma contengono codice vulnerabile. Con il nostro FCV-Attack, che può essere deliberatamente creato da attaccanti malintenzionati o implicitamente introdotto da sviluppatori benigni, dimostriamo che i modelli LLM all'avanguardia (ad esempio, ChatGPT e Claude) e gli scaffold di agenti (ad esempio, SWE-agent e OpenHands) sono tutti vulnerabili a questa minaccia FCV; su 12 combinazioni di agenti-modelli su SWE-Bench, l'attacco richiede solo l'accesso in modalità black-box e una singola query all'agente di codice per essere eseguito. Ad esempio, per CWE-538 (vulnerabilità di esposizione delle informazioni), l'FCV-Attack raggiunge un tasso di successo dell'attacco del 40,7% su GPT-5 Mini + OpenHands. I nostri risultati rivelano un'importante minaccia per la sicurezza trascurata dagli attuali paradigmi di valutazione e sollecitano lo sviluppo di difese consapevoli della sicurezza per gli agenti di codice.
English
Code agents are increasingly trusted to autonomously fix bugs on platforms
such as GitHub, yet their security evaluation focuses almost exclusively on
functional correctness. In this paper, we reveal a novel type of threat to
real-world code agents: Functionally Correct yet Vulnerable (FCV) patches,
which pass all test cases but contain vulnerable code. With our proposed
FCV-Attack, which can be deliberately crafted by malicious attackers or
implicitly introduced by benign developers, we show that SOTA LLMs (e.g.,
ChatGPT and Claude) and agent scaffolds (e.g., SWE-agent and OpenHands) are all
vulnerable to this FCV threat; across 12 agent-model combinations on SWE-Bench,
the attack only requires black-box access and a single query to the code agent
to perform the attack. For example, for CWE-538 (information exposure
vulnerability), the FCV-Attack attains an attack success rate of 40.7% on
GPT-5 Mini + OpenHands. Our results reveal an important security threat
overlooked by current evaluation paradigms and urge the development of
security-aware defenses for code agents.