Ложное чувство безопасности: почему обнаружение вредоносных входных данных на основе зондирования не способно к обобщению
False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize
September 4, 2025
Авторы: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen
cs.AI
Аннотация
Крупные языковые модели (LLMs) могут выполнять вредоносные инструкции, что вызывает серьезные опасения в отношении безопасности, несмотря на их впечатляющие возможности. В последних работах использовались подходы на основе зондирования для изучения разделимости вредоносных и доброкачественных входных данных во внутренних представлениях LLMs, и исследователи предложили использовать такие методы зондирования для обнаружения угроз безопасности. Мы систематически пересматриваем эту парадигму. Мотивированные низкой производительностью на данных, выходящих за пределы распределения, мы выдвигаем гипотезу, что зонды изучают поверхностные паттерны, а не семантическую вредоносность. В ходе контролируемых экспериментов мы подтверждаем эту гипотезу и идентифицируем конкретные изучаемые паттерны: инструкционные паттерны и триггерные слова. Наше исследование следует систематическому подходу, начиная с демонстрации сопоставимой производительности простых методов n-грамм, затем переходя к контролируемым экспериментам с семантически очищенными наборами данных и заканчивая детальным анализом зависимостей паттернов. Эти результаты выявляют ложное чувство безопасности, связанное с текущими подходами на основе зондирования, и подчеркивают необходимость пересмотра как моделей, так и протоколов оценки, для чего мы предоставляем дальнейшие обсуждения в надежде предложить ответственные дальнейшие исследования в этом направлении. Мы открыли исходный код проекта по адресу https://github.com/WangCheng0116/Why-Probe-Fails.
English
Large Language Models (LLMs) can comply with harmful instructions, raising
serious safety concerns despite their impressive capabilities. Recent work has
leveraged probing-based approaches to study the separability of malicious and
benign inputs in LLMs' internal representations, and researchers have proposed
using such probing methods for safety detection. We systematically re-examine
this paradigm. Motivated by poor out-of-distribution performance, we
hypothesize that probes learn superficial patterns rather than semantic
harmfulness. Through controlled experiments, we confirm this hypothesis and
identify the specific patterns learned: instructional patterns and trigger
words. Our investigation follows a systematic approach, progressing from
demonstrating comparable performance of simple n-gram methods, to controlled
experiments with semantically cleaned datasets, to detailed analysis of pattern
dependencies. These results reveal a false sense of security around current
probing-based approaches and highlight the need to redesign both models and
evaluation protocols, for which we provide further discussions in the hope of
suggesting responsible further research in this direction. We have open-sourced
the project at https://github.com/WangCheng0116/Why-Probe-Fails.