Что знают промежуточные слои: обнаружение джейлбрейков по динамике энтропии

Аннотация

Атаки типа "джейлбрейк" выявляют устойчивую уязвимость согласованных больших языковых моделей: тщательно составленные подсказки могут вызывать ответы, нарушающие политику, несмотря на обучение безопасности. В то время как большинство методов защиты работают на уровне подсказки или вывода, остается неясным, как вредоносный замысел кодируется во внутренних представлениях модели. Мы исследуем этот вопрос, анализируя траектории предсказательной энтропии на уровне токенов по слоям замороженной LLM с помощью логит-линзы. Мы обнаруживаем, что статические агрегированные статистики энтропии на уровне подсказки (например, среднее, дисперсия) несут слабый дискриминативный сигнал, тогда как признаки, описывающие эволюцию энтропии по позициям токенов, такие как монотонные ранговые трендовые оценки, значительно более информативны. Важно, что этот сигнал неоднороден по глубине модели: он сосредоточен в промежуточных слоях и ослабевает на последнем слое, что указывает на то, что релевантная для джейлбрейка структура наиболее выражена в средних представлениях сети, а не на выходном слое. На нескольких моделях (Llama, Qwen, Gemma) и состязательных тестовых наборах эта динамика энтропии обеспечивает архитектурно-согласованное разделение без дополнительного обучения. В совокупности наши результаты показывают, что поведение при джейлбрейке отражается в структурированной динамике неопределенности на промежуточных уровнях, проясняя как то, какие признаки, производные от энтропии, кодируют вредоносный замысел, так и то, в какой части сети этот сигнал наиболее выражен.

English

Jailbreak attacks reveal a persistent weakness in aligned Large Language Models: carefully crafted prompts can elicit policy-violating responses despite safety training. While most defenses operate at the prompt or output level, it remains unclear how harmful intent is encoded within the model's internal representations. We investigate this question by analyzing token-level predictive entropy trajectories across layers of a frozen LLM using the logit lens. We find that static aggregate statistics of prompt-level entropy (e.g., mean, variance) carry little discriminative signal, whereas features capturing how entropy evolves across token positions, such as monotonic rank-based trend scores, are substantially more informative. Importantly, this signal is not uniform across model depth: it is concentrated in intermediate layers and degrades at the final layer, indicating that jailbreak-relevant structure is most pronounced in mid-network representations rather than at the output head. Across multiple models (Llama, Qwen, Gemma) and adversarial benchmarks, these entropy dynamics provide architecture-consistent separation without additional training. Together, our findings show that jailbreak behavior is reflected in structured intermediate uncertainty dynamics, clarifying both which entropy-derived features encode harmful intent and where in the network that signal is most pronounced.