Falsches Sicherheitsgefühl: Warum die auf Sondierung basierende Erkennung bösartiger Eingaben keine Generalisierung erreicht
False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize
September 4, 2025
papers.authors: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) können schädlichen Anweisungen folgen, was trotz ihrer beeindruckenden Fähigkeiten ernsthafte Sicherheitsbedenken aufwirft. In jüngster Arbeit wurden auf Sondierung basierende Ansätze genutzt, um die Trennbarkeit von bösartigen und gutartigen Eingaben in den internen Repräsentationen von LLMs zu untersuchen, und Forscher haben vorgeschlagen, solche Sondierungsmethoden für die Sicherheitserkennung einzusetzen. Wir überprüfen dieses Paradigma systematisch neu. Motiviert durch schlechte Leistung bei Out-of-Distribution-Daten, stellen wir die Hypothese auf, dass Sonden oberflächliche Muster anstelle von semantischer Schädlichkeit erlernen. Durch kontrollierte Experimente bestätigen wir diese Hypothese und identifizieren die spezifischen erlernten Muster: Anweisungsmuster und Triggerwörter. Unsere Untersuchung folgt einem systematischen Ansatz, der von der Demonstration vergleichbarer Leistung einfacher n-Gramm-Methoden über kontrollierte Experimente mit semantisch bereinigten Datensätzen bis hin zur detaillierten Analyse von Musterabhängigkeiten reicht. Diese Ergebnisse offenbaren ein falsches Sicherheitsgefühl gegenüber aktuellen auf Sondierung basierenden Ansätzen und unterstreichen die Notwendigkeit, sowohl Modelle als auch Evaluierungsprotokolle neu zu gestalten, wofür wir weitere Diskussionen anbieten, um verantwortungsbewusste weitere Forschung in diese Richtung anzuregen. Wir haben das Projekt unter https://github.com/WangCheng0116/Why-Probe-Fails open-source gestellt.
English
Large Language Models (LLMs) can comply with harmful instructions, raising
serious safety concerns despite their impressive capabilities. Recent work has
leveraged probing-based approaches to study the separability of malicious and
benign inputs in LLMs' internal representations, and researchers have proposed
using such probing methods for safety detection. We systematically re-examine
this paradigm. Motivated by poor out-of-distribution performance, we
hypothesize that probes learn superficial patterns rather than semantic
harmfulness. Through controlled experiments, we confirm this hypothesis and
identify the specific patterns learned: instructional patterns and trigger
words. Our investigation follows a systematic approach, progressing from
demonstrating comparable performance of simple n-gram methods, to controlled
experiments with semantically cleaned datasets, to detailed analysis of pattern
dependencies. These results reveal a false sense of security around current
probing-based approaches and highlight the need to redesign both models and
evaluation protocols, for which we provide further discussions in the hope of
suggesting responsible further research in this direction. We have open-sourced
the project at https://github.com/WangCheng0116/Why-Probe-Fails.