Грамматически ограниченное декодирование может осуществить джейлбрейк больших языковых моделей для генерации вредоносного кода

Аннотация

Большие языковые модели (LLM) всё чаще используются для генерации кода, что вызывает опасения по поводу их возможного применения для создания вредоносного кода. В то же время декодирование с грамматическими ограничениями (GCD) широко применяется для повышения надёжности генерируемого LLM кода за счёт обеспечения синтаксической корректности. В данной статье мы выявляем парадоксальный риск: этот метод, ориентированный на надёжность, сам может стать поверхностью для атак. Мы описываем новую атаку взлома (jailbreak) под названием CodeSpear, которая использует GCD для того, чтобы заставить LLM генерировать вредоносный код. Наши эксперименты показывают, что простое применение ограничения на грамматику безвредного кода может эффективно взломать LLM. Для устранения этой уязвимости мы предлагаем CodeShield — подход к выравниванию безопасности, который надёжно сохраняет безопасное поведение даже при контролируемых атакующим грамматических ограничениях. CodeShield выравнивает модель в модальности кода, обучая её генерировать код-приманку (honeypot code) под GCD. Такой код семантически безвреден (не реализует вредоносный запрос) и структурно разнообразен, что затрудняет его подавление путём ужесточения грамматики. При этом CodeShield сохраняет отказы на естественном языке, когда он доступен. Эксперименты на 10 популярных LLM по 4 эталонным наборам данных показывают, что CodeSpear превосходит репрезентативные базовые методы взлома и увеличивает средний показатель успешности атаки более чем на 30 процентных пунктов. CodeShield, в свою очередь, восстанавливает безопасность при CodeSpear, сохраняя полезную функциональность для безвредных запросов. Наши результаты выявляют фундаментальный риск GCD и призывают к более пристальному вниманию к его потенциальным последствиям для безопасности.

English

Large Language Models (LLMs) are increasingly used for code generation, raising concerns that they may be misused to produce malicious code. Meanwhile, Grammar-Constrained Decoding (GCD) has been widely adopted to improve the reliability of LLM-generated code by enforcing syntactic validity. In this paper, we reveal a counterintuitive risk: this reliability-oriented technique can itself become an attack surface. We uncover a new jailbreak attack, termed CodeSpear, that exploits GCD to induce LLMs into generating malicious code. Our experiments show that simply applying a benign code grammar constraint can effectively jailbreak LLMs. To address this vulnerability, we propose CodeShield, a safety alignment approach that robustly preserves safe behavior even under attacker-controlled grammar constraints. CodeShield aligns the model in the code modality by teaching it to generate honeypot code under GCD. Such code is semantically harmless, so it does not implement the malicious request, and structurally diverse, so it is difficult to suppress through grammar tightening. At the same time, CodeShield still preserves natural-language refusals when natural language is available. Experiments on 10 popular LLMs across 4 benchmarks show that CodeSpear outperforms representative jailbreak baselines and increases the attack success rate by more than 30 percentage points on average. CodeShield also restores safety under CodeSpear while preserving benign utility. Our findings reveal a fundamental risk of GCD and call for greater attention to its potential security implications.