Когда "Правильно" Не Означает Безопасно: Можно Ли Доверять Функционально Корректным Исправлениям, Сгенерированным Кодовыми Агентами?
When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?
October 15, 2025
Авторы: Yibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen
cs.AI
Аннотация
Кодовые агенты все чаще доверяют автономное исправление ошибок на платформах, таких как GitHub, однако их оценка безопасности сосредоточена почти исключительно на функциональной корректности. В данной статье мы раскрываем новый тип угрозы для реальных кодовых агентов: функционально корректные, но уязвимые (FCV) патчи, которые проходят все тестовые случаи, но содержат уязвимый код. С помощью предложенной нами FCV-атаки, которая может быть намеренно создана злоумышленниками или непреднамеренно внедрена добросовестными разработчиками, мы показываем, что современные LLM (например, ChatGPT и Claude) и фреймворки для агентов (например, SWE-agent и OpenHands) уязвимы к этой FCV-угрозе; для 12 комбинаций агентов и моделей на SWE-Bench атака требует только черного ящика и одного запроса к кодовому агенту для выполнения. Например, для уязвимости CWE-538 (утечка информации) FCV-атака достигает успеха в 40,7% случаев для GPT-5 Mini + OpenHands. Наши результаты выявляют важную угрозу безопасности, упущенную текущими парадигмами оценки, и подчеркивают необходимость разработки защитных механизмов, учитывающих безопасность, для кодовых агентов.
English
Code agents are increasingly trusted to autonomously fix bugs on platforms
such as GitHub, yet their security evaluation focuses almost exclusively on
functional correctness. In this paper, we reveal a novel type of threat to
real-world code agents: Functionally Correct yet Vulnerable (FCV) patches,
which pass all test cases but contain vulnerable code. With our proposed
FCV-Attack, which can be deliberately crafted by malicious attackers or
implicitly introduced by benign developers, we show that SOTA LLMs (e.g.,
ChatGPT and Claude) and agent scaffolds (e.g., SWE-agent and OpenHands) are all
vulnerable to this FCV threat; across 12 agent-model combinations on SWE-Bench,
the attack only requires black-box access and a single query to the code agent
to perform the attack. For example, for CWE-538 (information exposure
vulnerability), the FCV-Attack attains an attack success rate of 40.7% on
GPT-5 Mini + OpenHands. Our results reveal an important security threat
overlooked by current evaluation paradigms and urge the development of
security-aware defenses for code agents.