La decodificación con restricciones gramaticales puede vulnerar los LLMs para que generen código malicioso

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) se utilizan cada vez más para la generación de código, lo que suscita preocupaciones por su posible uso indebido para producir código malicioso. Al mismo tiempo, la Decodificación Restringida por Gramática (GCD) se ha adoptado ampliamente para mejorar la fiabilidad del código generado por LLMs al imponer validez sintáctica. En este artículo, revelamos un riesgo contraintuitivo: esta técnica orientada a la fiabilidad puede convertirse en una superficie de ataque. Descubrimos un nuevo ataque de jailbreak, denominado CodeSpear, que explota la GCD para inducir a los LLMs a generar código malicioso. Nuestros experimentos muestran que simplemente aplicar una restricción gramatical de código benigna puede efectivamente vulnerar los LLMs. Para abordar esta vulnerabilidad, proponemos CodeShield, un enfoque de alineación de seguridad que preserva robustamente el comportamiento seguro incluso bajo restricciones gramaticales controladas por el atacante. CodeShield alinea el modelo en la modalidad de código enseñándole a generar código honeypot bajo GCD. Dicho código es semánticamente inofensivo, por lo que no implementa la solicitud maliciosa, y estructuralmente diverso, lo que dificulta su supresión mediante el endurecimiento de la gramática. Al mismo tiempo, CodeShield preserva las negativas en lenguaje natural cuando dicho lenguaje está disponible. Los experimentos realizados en 10 LLMs populares y 4 puntos de referencia muestran que CodeSpear supera a las líneas base representativas de jailbreak y aumenta la tasa de éxito de ataque en más de 30 puntos porcentuales en promedio. CodeShield también restaura la seguridad bajo CodeSpear mientras preserva la utilidad benigna. Nuestros hallazgos revelan un riesgo fundamental de la GCD y exigen prestar mayor atención a sus posibles implicaciones de seguridad.

English

Large Language Models (LLMs) are increasingly used for code generation, raising concerns that they may be misused to produce malicious code. Meanwhile, Grammar-Constrained Decoding (GCD) has been widely adopted to improve the reliability of LLM-generated code by enforcing syntactic validity. In this paper, we reveal a counterintuitive risk: this reliability-oriented technique can itself become an attack surface. We uncover a new jailbreak attack, termed CodeSpear, that exploits GCD to induce LLMs into generating malicious code. Our experiments show that simply applying a benign code grammar constraint can effectively jailbreak LLMs. To address this vulnerability, we propose CodeShield, a safety alignment approach that robustly preserves safe behavior even under attacker-controlled grammar constraints. CodeShield aligns the model in the code modality by teaching it to generate honeypot code under GCD. Such code is semantically harmless, so it does not implement the malicious request, and structurally diverse, so it is difficult to suppress through grammar tightening. At the same time, CodeShield still preserves natural-language refusals when natural language is available. Experiments on 10 popular LLMs across 4 benchmarks show that CodeSpear outperforms representative jailbreak baselines and increases the attack success rate by more than 30 percentage points on average. CodeShield also restores safety under CodeSpear while preserving benign utility. Our findings reveal a fundamental risk of GCD and call for greater attention to its potential security implications.