Wat Tussenliggende Lagen Weten: Detecteren van Jailbreaks vanuit Entropiedynamica

Samenvatting

Jailbreak-aanvallen onthullen een aanhoudende zwakte in afgestemde grote taalmodellen: zorgvuldig geconstrueerde prompts kunnen beleidsovertredende reacties uitlokken, ondanks veiligheidstraining. Hoewel de meeste verdedigingen werken op prompt- of outputniveau, blijft het onduidelijk hoe schadelijke intentie wordt gecodeerd in de interne representaties van het model. We onderzoeken deze vraag door token-niveau voorspellende entropietrajecten over lagen van een bevroren LLM te analyseren met behulp van de logit-lens. We ontdekken dat statische geaggregeerde statistieken van entropie op promptniveau (bijv. gemiddelde, variantie) weinig discriminerend signaal bevatten, terwijl kenmerken die vastleggen hoe entropie evolueert over tokenposities, zoals monotone op rang gebaseerde trendscores, aanzienlijk informatiever zijn. Belangrijk is dat dit signaal niet uniform is over de diepte van het model: het is geconcentreerd in tussenliggende lagen en neemt af in de laatste laag, wat aangeeft dat jailbreak-relevante structuur het meest uitgesproken is in representaties midden in het netwerk in plaats van aan de uitgangskop. Over meerdere modellen (Llama, Qwen, Gemma) en adversariële benchmarks bieden deze entropiedynamieken architectuur-consistente scheiding zonder extra training. Samen tonen onze bevindingen aan dat jailbreak-gedrag wordt weerspiegeld in gestructureerde tussentijdse onzekerheidsdynamieken, wat verduidelijkt zowel welke van entropie afgeleide kenmerken schadelijke intentie coderen als waar in het netwerk dat signaal het meest uitgesproken is.

English

Jailbreak attacks reveal a persistent weakness in aligned Large Language Models: carefully crafted prompts can elicit policy-violating responses despite safety training. While most defenses operate at the prompt or output level, it remains unclear how harmful intent is encoded within the model's internal representations. We investigate this question by analyzing token-level predictive entropy trajectories across layers of a frozen LLM using the logit lens. We find that static aggregate statistics of prompt-level entropy (e.g., mean, variance) carry little discriminative signal, whereas features capturing how entropy evolves across token positions, such as monotonic rank-based trend scores, are substantially more informative. Importantly, this signal is not uniform across model depth: it is concentrated in intermediate layers and degrades at the final layer, indicating that jailbreak-relevant structure is most pronounced in mid-network representations rather than at the output head. Across multiple models (Llama, Qwen, Gemma) and adversarial benchmarks, these entropy dynamics provide architecture-consistent separation without additional training. Together, our findings show that jailbreak behavior is reflected in structured intermediate uncertainty dynamics, clarifying both which entropy-derived features encode harmful intent and where in the network that signal is most pronounced.