Grammatica-beperkte decodering kan LLM's jailbreaken om kwaadaardige code te genereren.

Samenvatting

Grote Taalmodellen (Large Language Models, LLM’s) worden steeds vaker gebruikt voor het genereren van code, wat de zorg oproept dat ze misbruikt kunnen worden om kwaadaardige code te produceren. Tegelijkertijd wordt Grammatica-Gebonden Decodering (Grammar-Constrained Decoding, GCD) breed toegepast om de betrouwbaarheid van door LLM’s gegenereerde code te verbeteren door syntactische geldigheid af te dwingen. In dit artikel onthullen we een tegenintuïtief risico: deze op betrouwbaarheid gerichte techniek kan zelf een aanvalsoppervlak worden. We ontdekken een nieuwe jailbreak-aanval, genaamd CodeSpear, die GCD misbruikt om LLM’s ertoe aan te zetten kwaadaardige code te genereren. Onze experimenten tonen aan dat het simpelweg toepassen van een onschuldige grammaticabeperking voor code LLM’s effectief kan jailbreaken. Om deze kwetsbaarheid aan te pakken, stellen we CodeShield voor, een veiligheidsafstemmingsaanpak die veilig gedrag robuust behoudt, zelfs onder door aanvallers gecontroleerde grammaticabeperkingen. CodeShield stemt het model af in de codemodaliteit door het te leren honeypot-code te genereren onder GCD. Dergelijke code is semantisch onschadelijk, zodat het de kwaadaardige aanvraag niet implementeert, en structureel divers, zodat het moeilijk te onderdrukken is door aanscherping van de grammatica. Tegelijkertijd behoudt CodeShield weigeringen in natuurlijke taal wanneer natuurlijke taal beschikbaar is. Experimenten op 10 populaire LLM’s over 4 benchmarks laten zien dat CodeSpear representatieve jailbreak-baselines overtreft en het aanvalsuccespercentage gemiddeld met meer dan 30 procentpunten verhoogt. CodeShield herstelt ook de veiligheid onder CodeSpear, terwijl het onschadelijk nut behouden blijft. Onze bevindingen onthullen een fundamenteel risico van GCD en roepen op tot meer aandacht voor de mogelijke beveiligingsimplicaties ervan.

English

Large Language Models (LLMs) are increasingly used for code generation, raising concerns that they may be misused to produce malicious code. Meanwhile, Grammar-Constrained Decoding (GCD) has been widely adopted to improve the reliability of LLM-generated code by enforcing syntactic validity. In this paper, we reveal a counterintuitive risk: this reliability-oriented technique can itself become an attack surface. We uncover a new jailbreak attack, termed CodeSpear, that exploits GCD to induce LLMs into generating malicious code. Our experiments show that simply applying a benign code grammar constraint can effectively jailbreak LLMs. To address this vulnerability, we propose CodeShield, a safety alignment approach that robustly preserves safe behavior even under attacker-controlled grammar constraints. CodeShield aligns the model in the code modality by teaching it to generate honeypot code under GCD. Such code is semantically harmless, so it does not implement the malicious request, and structurally diverse, so it is difficult to suppress through grammar tightening. At the same time, CodeShield still preserves natural-language refusals when natural language is available. Experiments on 10 popular LLMs across 4 benchmarks show that CodeSpear outperforms representative jailbreak baselines and increases the attack success rate by more than 30 percentage points on average. CodeShield also restores safety under CodeSpear while preserving benign utility. Our findings reveal a fundamental risk of GCD and call for greater attention to its potential security implications.