Wenn „Korrekt“ nicht sicher ist: Können wir funktional korrekten Patches vertrauen, die von Code-Agenten generiert werden?
When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?
October 15, 2025
papers.authors: Yibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen
cs.AI
papers.abstract
Code-Agents werden zunehmend darauf vertraut, Fehler auf Plattformen wie GitHub autonom zu beheben, doch ihre Sicherheitsbewertung konzentriert sich fast ausschließlich auf die funktionale Korrektheit. In diesem Artikel enthüllen wir eine neuartige Art von Bedrohung für Code-Agents in der Praxis: Funktional korrekte, aber dennoch anfällige (FCV) Patches, die alle Testfälle bestehen, aber anfälligen Code enthalten. Mit unserem vorgeschlagenen FCV-Angriff, der absichtlich von böswilligen Angreifern erstellt oder implizit von wohlmeinenden Entwicklern eingeführt werden kann, zeigen wir, dass state-of-the-art LLMs (z. B. ChatGPT und Claude) und Agenten-Scaffolds (z. B. SWE-Agent und OpenHands) alle anfällig für diese FCV-Bedrohung sind. Über 12 Agenten-Modell-Kombinationen auf SWE-Bench hinweg erfordert der Angriff lediglich einen Black-Box-Zugriff und eine einzige Abfrage an den Code-Agenten, um den Angriff durchzuführen. Beispielsweise erreicht der FCV-Angriff für CWE-538 (Schwachstelle durch Informationspreisgabe) eine Erfolgsrate von 40,7 % bei GPT-5 Mini + OpenHands. Unsere Ergebnisse offenbaren eine wichtige Sicherheitsbedrohung, die von den aktuellen Bewertungsparadigmen übersehen wird, und fordern die Entwicklung von sicherheitsbewussten Abwehrmechanismen für Code-Agents.
English
Code agents are increasingly trusted to autonomously fix bugs on platforms
such as GitHub, yet their security evaluation focuses almost exclusively on
functional correctness. In this paper, we reveal a novel type of threat to
real-world code agents: Functionally Correct yet Vulnerable (FCV) patches,
which pass all test cases but contain vulnerable code. With our proposed
FCV-Attack, which can be deliberately crafted by malicious attackers or
implicitly introduced by benign developers, we show that SOTA LLMs (e.g.,
ChatGPT and Claude) and agent scaffolds (e.g., SWE-agent and OpenHands) are all
vulnerable to this FCV threat; across 12 agent-model combinations on SWE-Bench,
the attack only requires black-box access and a single query to the code agent
to perform the attack. For example, for CWE-538 (information exposure
vulnerability), the FCV-Attack attains an attack success rate of 40.7% on
GPT-5 Mini + OpenHands. Our results reveal an important security threat
overlooked by current evaluation paradigms and urge the development of
security-aware defenses for code agents.