Decodificação Restrita por Gramática Pode Subverter LLMs para Gerar Código Malicioso

Resumo

Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais utilizados para geração de código, levantando preocupações de que possam ser usados indevidamente para produzir código malicioso. Entretanto, a Decodificação com Restrições Gramaticais (GCD) tem sido amplamente adotada para melhorar a confiabilidade do código gerado por LLMs, impondo validade sintática. Neste artigo, revelamos um risco contraintuitivo: essa técnica orientada à confiabilidade pode se tornar, ela própria, uma superfície de ataque. Descobrimos um novo ataque de jailbreak, denominado CodeSpear, que explora a GCD para induzir LLMs a gerar código malicioso. Nossos experimentos mostram que simplesmente aplicar uma restrição gramatical de código benigno pode efetivamente realizar o jailbreak de LLMs. Para lidar com essa vulnerabilidade, propomos o CodeShield, uma abordagem de alinhamento de segurança que preserva de forma robusta o comportamento seguro mesmo sob restrições gramaticais controladas pelo atacante. O CodeShield alinha o modelo na modalidade de código, ensinando-o a gerar código honeypot sob GCD. Esse código é semanticamente inofensivo, portanto não implementa a solicitação maliciosa, e estruturalmente diverso, dificultando sua supressão por meio do aperto gramatical. Ao mesmo tempo, o CodeShield ainda preserva recusas em linguagem natural quando esta está disponível. Experimentos em 10 LLMs populares em 4 benchmarks mostram que o CodeSpear supera as bases de referência representativas de jailbreak e aumenta a taxa de sucesso do ataque em mais de 30 pontos percentuais, em média. O CodeShield também restaura a segurança sob o CodeSpear, preservando a utilidade benigna. Nossas descobertas revelam um risco fundamental da GCD e clamam por maior atenção às suas potenciais implicações de segurança.

English

Large Language Models (LLMs) are increasingly used for code generation, raising concerns that they may be misused to produce malicious code. Meanwhile, Grammar-Constrained Decoding (GCD) has been widely adopted to improve the reliability of LLM-generated code by enforcing syntactic validity. In this paper, we reveal a counterintuitive risk: this reliability-oriented technique can itself become an attack surface. We uncover a new jailbreak attack, termed CodeSpear, that exploits GCD to induce LLMs into generating malicious code. Our experiments show that simply applying a benign code grammar constraint can effectively jailbreak LLMs. To address this vulnerability, we propose CodeShield, a safety alignment approach that robustly preserves safe behavior even under attacker-controlled grammar constraints. CodeShield aligns the model in the code modality by teaching it to generate honeypot code under GCD. Such code is semantically harmless, so it does not implement the malicious request, and structurally diverse, so it is difficult to suppress through grammar tightening. At the same time, CodeShield still preserves natural-language refusals when natural language is available. Experiments on 10 popular LLMs across 4 benchmarks show that CodeSpear outperforms representative jailbreak baselines and increases the attack success rate by more than 30 percentage points on average. CodeShield also restores safety under CodeSpear while preserving benign utility. Our findings reveal a fundamental risk of GCD and call for greater attention to its potential security implications.