Quand "Correct" n'est pas sûr : Peut-on faire confiance aux correctifs fonctionnellement justes générés par les agents de code ?

papers.abstract

Les agents de code sont de plus en plus sollicités pour corriger des bugs de manière autonome sur des plateformes comme GitHub, mais leur évaluation de sécurité se concentre presque exclusivement sur la correction fonctionnelle. Dans cet article, nous révélons un nouveau type de menace pour les agents de code dans le monde réel : les correctifs fonctionnellement corrects mais vulnérables (FCV), qui passent tous les tests mais contiennent du code vulnérable. Avec notre FCV-Attack, qui peut être délibérément conçue par des attaquants malveillants ou implicitement introduite par des développeurs bienveillants, nous montrons que les modèles de langage les plus avancés (par exemple, ChatGPT et Claude) et les structures d'agents (par exemple, SWE-agent et OpenHands) sont tous vulnérables à cette menace FCV ; sur 12 combinaisons d'agents-modèles dans SWE-Bench, l'attaque ne nécessite qu'un accès en boîte noire et une seule requête à l'agent de code pour être exécutée. Par exemple, pour la vulnérabilité CWE-538 (exposition d'informations), la FCV-Attack atteint un taux de réussite de 40,7 % sur GPT-5 Mini + OpenHands. Nos résultats révèlent une menace de sécurité importante négligée par les paradigmes d'évaluation actuels et appellent au développement de défenses axées sur la sécurité pour les agents de code.

English

Code agents are increasingly trusted to autonomously fix bugs on platforms such as GitHub, yet their security evaluation focuses almost exclusively on functional correctness. In this paper, we reveal a novel type of threat to real-world code agents: Functionally Correct yet Vulnerable (FCV) patches, which pass all test cases but contain vulnerable code. With our proposed FCV-Attack, which can be deliberately crafted by malicious attackers or implicitly introduced by benign developers, we show that SOTA LLMs (e.g., ChatGPT and Claude) and agent scaffolds (e.g., SWE-agent and OpenHands) are all vulnerable to this FCV threat; across 12 agent-model combinations on SWE-Bench, the attack only requires black-box access and a single query to the code agent to perform the attack. For example, for CWE-538 (information exposure vulnerability), the FCV-Attack attains an attack success rate of 40.7% on GPT-5 Mini + OpenHands. Our results reveal an important security threat overlooked by current evaluation paradigms and urge the development of security-aware defenses for code agents.

Quand "Correct" n'est pas sûr : Peut-on faire confiance aux correctifs fonctionnellement justes générés par les agents de code ?

When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?

papers.abstract

Support