Fausse impression de sécurité : Pourquoi la détection d'entrées malveillantes basée sur le sondage échoue à généraliser

papers.abstract

Les grands modèles de langage (LLMs) peuvent se conformer à des instructions nuisibles, soulevant de sérieuses préoccupations en matière de sécurité malgré leurs capacités impressionnantes. Des travaux récents ont exploité des approches basées sur le sondage pour étudier la séparabilité des entrées malveillantes et bénignes dans les représentations internes des LLMs, et les chercheurs ont proposé d'utiliser ces méthodes de sondage pour la détection de la sécurité. Nous réexaminons systématiquement ce paradigme. Motivés par les faibles performances hors distribution, nous émettons l'hypothèse que les sondes apprennent des motifs superficiels plutôt que la nocivité sémantique. À travers des expériences contrôlées, nous confirmons cette hypothèse et identifions les motifs spécifiques appris : les motifs d'instruction et les mots déclencheurs. Notre investigation suit une approche systématique, progressant de la démonstration de performances comparables avec des méthodes simples de n-grammes, à des expériences contrôlées avec des ensembles de données sémantiquement nettoyés, jusqu'à une analyse détaillée des dépendances des motifs. Ces résultats révèlent un faux sentiment de sécurité autour des approches actuelles basées sur le sondage et soulignent la nécessité de repenser à la fois les modèles et les protocoles d'évaluation, pour lesquels nous fournissons des discussions supplémentaires dans l'espoir de suggérer des recherches responsables dans cette direction. Nous avons rendu le projet open-source à l'adresse https://github.com/WangCheng0116/Why-Probe-Fails.

English

Large Language Models (LLMs) can comply with harmful instructions, raising serious safety concerns despite their impressive capabilities. Recent work has leveraged probing-based approaches to study the separability of malicious and benign inputs in LLMs' internal representations, and researchers have proposed using such probing methods for safety detection. We systematically re-examine this paradigm. Motivated by poor out-of-distribution performance, we hypothesize that probes learn superficial patterns rather than semantic harmfulness. Through controlled experiments, we confirm this hypothesis and identify the specific patterns learned: instructional patterns and trigger words. Our investigation follows a systematic approach, progressing from demonstrating comparable performance of simple n-gram methods, to controlled experiments with semantically cleaned datasets, to detailed analysis of pattern dependencies. These results reveal a false sense of security around current probing-based approaches and highlight the need to redesign both models and evaluation protocols, for which we provide further discussions in the hope of suggesting responsible further research in this direction. We have open-sourced the project at https://github.com/WangCheng0116/Why-Probe-Fails.

Fausse impression de sécurité : Pourquoi la détection d'entrées malveillantes basée sur le sondage échoue à généraliser

False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

papers.abstract

Support