Le décodage contraint par la grammaire peut détourner les LLMs pour générer du code malveillant.

Résumé

Les grands modèles de langage (LLMs) sont de plus en plus utilisés pour la génération de code, suscitant des inquiétudes quant à leur possible détournement pour produire du code malveillant. Parallèlement, le décodage contraint par grammaire (GCD) a été largement adopté pour améliorer la fiabilité du code généré par les LLMs en imposant une validité syntaxique. Dans cet article, nous révélons un risque contre-intuitif : cette technique axée sur la fiabilité peut elle-même devenir une surface d'attaque. Nous découvrons une nouvelle attaque de jailbreak, baptisée CodeSpear, qui exploite le GCD pour amener les LLMs à générer du code malveillant. Nos expériences montrent que l'application d'une simple contrainte de grammaire de code bénigne peut efficacement jailbreaker les LLMs. Pour remédier à cette vulnérabilité, nous proposons CodeShield, une approche d'alignement de sécurité qui préserve robustement un comportement sécurisé même sous des contraintes de grammaire contrôlées par un attaquant. CodeShield aligne le modèle dans la modalité du code en lui apprenant à générer du code leurre sous GCD. Ce code est sémantiquement inoffensif, donc il n'implémente pas la requête malveillante, et structurellement diversifié, ce qui le rend difficile à supprimer par un resserrement de la grammaire. Parallèlement, CodeShield conserve les refus en langage naturel lorsque celui-ci est disponible. Les expériences menées sur 10 LLMs populaires et 4 bancs d'essai montrent que CodeSpear surpasse les attaques de jailbreak de référence et augmente le taux de succès de l'attaque de plus de 30 points de pourcentage en moyenne. CodeShield rétablit également la sécurité face à CodeSpear tout en préservant l'utilité bénigne. Nos résultats révèlent un risque fondamental du GCD et appellent à une attention accrue quant à ses implications potentielles en matière de sécurité.

English

Large Language Models (LLMs) are increasingly used for code generation, raising concerns that they may be misused to produce malicious code. Meanwhile, Grammar-Constrained Decoding (GCD) has been widely adopted to improve the reliability of LLM-generated code by enforcing syntactic validity. In this paper, we reveal a counterintuitive risk: this reliability-oriented technique can itself become an attack surface. We uncover a new jailbreak attack, termed CodeSpear, that exploits GCD to induce LLMs into generating malicious code. Our experiments show that simply applying a benign code grammar constraint can effectively jailbreak LLMs. To address this vulnerability, we propose CodeShield, a safety alignment approach that robustly preserves safe behavior even under attacker-controlled grammar constraints. CodeShield aligns the model in the code modality by teaching it to generate honeypot code under GCD. Such code is semantically harmless, so it does not implement the malicious request, and structurally diverse, so it is difficult to suppress through grammar tightening. At the same time, CodeShield still preserves natural-language refusals when natural language is available. Experiments on 10 popular LLMs across 4 benchmarks show that CodeSpear outperforms representative jailbreak baselines and increases the attack success rate by more than 30 percentage points on average. CodeShield also restores safety under CodeSpear while preserving benign utility. Our findings reveal a fundamental risk of GCD and call for greater attention to its potential security implications.