Grammatik-beschränkte Dekodierung kann LLMs jailbreaken, um schädlichen Code zu generieren.

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend zur Codegenerierung eingesetzt, was die Sorge aufkommen lässt, dass sie missbraucht werden könnten, um bösartigen Code zu erzeugen. Gleichzeitig hat sich die grammatikbeschränkte Dekodierung (Grammar-Constrained Decoding, GCD) etabliert, um die Zuverlässigkeit von LLM-generiertem Code durch die Durchsetzung syntaktischer Gültigkeit zu verbessern. In dieser Arbeit decken wir ein kontraintuitives Risiko auf: Diese auf Zuverlässigkeit ausgerichtete Technik selbst kann zur Angriffsfläche werden. Wir identifizieren einen neuen Jailbreak-Angriff namens CodeSpear, der GCD ausnutzt, um LLMs zur Erzeugung schädlichen Codes zu veranlassen. Unsere Experimente zeigen, dass bereits die Anwendung einer harmlosen Code-Grammatikbeschränkung LLMs effektiv jailbreaken kann. Um dieser Sicherheitslücke zu begegnen, schlagen wir CodeShield vor, einen Sicherheitsausrichtungsansatz, der sicheres Verhalten selbst unter von Angreifern kontrollierten Grammatikbeschränkungen robust bewahrt. CodeShield richtet das Modell in der Code-Modalität aus, indem es ihm beibringt, unter GCD Honigtopf-Code zu erzeugen. Ein solcher Code ist semantisch harmlos (setzt die böswillige Anfrage nicht um) und strukturell vielfältig (erschwert die Unterdrückung durch Grammatikverschärfung). Gleichzeitig bewahrt CodeShield weiterhin Ablehnungen in natürlicher Sprache, wenn natürliche Sprache verfügbar ist. Experimente mit zehn gängigen LLMs über vier Benchmarks hinweg zeigen, dass CodeSpear repräsentative Jailbreak-Baselines übertrifft und die Angriffserfolgsrate im Durchschnitt um mehr als 30 Prozentpunkte steigert. CodeShield stellt die Sicherheit unter CodeSpear wieder her, während der Nutzen für harmlose Anwendungen erhalten bleibt. Unsere Ergebnisse offenbaren ein grundlegendes Risiko von GCD und mahnen zu verstärkter Aufmerksamkeit für dessen potenzielle Sicherheitsimplikationen.

English

Large Language Models (LLMs) are increasingly used for code generation, raising concerns that they may be misused to produce malicious code. Meanwhile, Grammar-Constrained Decoding (GCD) has been widely adopted to improve the reliability of LLM-generated code by enforcing syntactic validity. In this paper, we reveal a counterintuitive risk: this reliability-oriented technique can itself become an attack surface. We uncover a new jailbreak attack, termed CodeSpear, that exploits GCD to induce LLMs into generating malicious code. Our experiments show that simply applying a benign code grammar constraint can effectively jailbreak LLMs. To address this vulnerability, we propose CodeShield, a safety alignment approach that robustly preserves safe behavior even under attacker-controlled grammar constraints. CodeShield aligns the model in the code modality by teaching it to generate honeypot code under GCD. Such code is semantically harmless, so it does not implement the malicious request, and structurally diverse, so it is difficult to suppress through grammar tightening. At the same time, CodeShield still preserves natural-language refusals when natural language is available. Experiments on 10 popular LLMs across 4 benchmarks show that CodeSpear outperforms representative jailbreak baselines and increases the attack success rate by more than 30 percentage points on average. CodeShield also restores safety under CodeSpear while preserving benign utility. Our findings reveal a fundamental risk of GCD and call for greater attention to its potential security implications.