Wenn „Korrekt“ nicht sicher ist: Können wir funktional korrekten Patches vertrauen, die von Code-Agenten generiert werden?

papers.abstract

Code-Agents werden zunehmend darauf vertraut, Fehler auf Plattformen wie GitHub autonom zu beheben, doch ihre Sicherheitsbewertung konzentriert sich fast ausschließlich auf die funktionale Korrektheit. In diesem Artikel enthüllen wir eine neuartige Art von Bedrohung für Code-Agents in der Praxis: Funktional korrekte, aber dennoch anfällige (FCV) Patches, die alle Testfälle bestehen, aber anfälligen Code enthalten. Mit unserem vorgeschlagenen FCV-Angriff, der absichtlich von böswilligen Angreifern erstellt oder implizit von wohlmeinenden Entwicklern eingeführt werden kann, zeigen wir, dass state-of-the-art LLMs (z. B. ChatGPT und Claude) und Agenten-Scaffolds (z. B. SWE-Agent und OpenHands) alle anfällig für diese FCV-Bedrohung sind. Über 12 Agenten-Modell-Kombinationen auf SWE-Bench hinweg erfordert der Angriff lediglich einen Black-Box-Zugriff und eine einzige Abfrage an den Code-Agenten, um den Angriff durchzuführen. Beispielsweise erreicht der FCV-Angriff für CWE-538 (Schwachstelle durch Informationspreisgabe) eine Erfolgsrate von 40,7 % bei GPT-5 Mini + OpenHands. Unsere Ergebnisse offenbaren eine wichtige Sicherheitsbedrohung, die von den aktuellen Bewertungsparadigmen übersehen wird, und fordern die Entwicklung von sicherheitsbewussten Abwehrmechanismen für Code-Agents.

English

Code agents are increasingly trusted to autonomously fix bugs on platforms such as GitHub, yet their security evaluation focuses almost exclusively on functional correctness. In this paper, we reveal a novel type of threat to real-world code agents: Functionally Correct yet Vulnerable (FCV) patches, which pass all test cases but contain vulnerable code. With our proposed FCV-Attack, which can be deliberately crafted by malicious attackers or implicitly introduced by benign developers, we show that SOTA LLMs (e.g., ChatGPT and Claude) and agent scaffolds (e.g., SWE-agent and OpenHands) are all vulnerable to this FCV threat; across 12 agent-model combinations on SWE-Bench, the attack only requires black-box access and a single query to the code agent to perform the attack. For example, for CWE-538 (information exposure vulnerability), the FCV-Attack attains an attack success rate of 40.7% on GPT-5 Mini + OpenHands. Our results reveal an important security threat overlooked by current evaluation paradigms and urge the development of security-aware defenses for code agents.

Wenn „Korrekt“ nicht sicher ist: Können wir funktional korrekten Patches vertrauen, die von Code-Agenten generiert werden?

When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?

papers.abstract

Support