Valse Veiligheid: Waarom Detectie van Kwaadaardige Inputs op Basis van Probing Mislukt in Generalisatie

Samenvatting

Grote Taalmodellen (LLMs) kunnen schadelijke instructies opvolgen, wat ernstige veiligheidszorgen oproept ondanks hun indrukwekkende mogelijkheden. Recent onderzoek heeft gebruikgemaakt van op sondering gebaseerde benaderingen om de scheidbaarheid van kwaadaardige en goedaardige invoer in de interne representaties van LLMs te bestuderen, en onderzoekers hebben voorgesteld om dergelijke sondermethoden te gebruiken voor veiligheidsdetectie. Wij onderzoeken dit paradigma systematisch opnieuw. Gemotiveerd door slechte prestaties buiten de verdeling, stellen we de hypothese dat sondes oppervlakkige patronen leren in plaats van semantische schadelijkheid. Door middel van gecontroleerde experimenten bevestigen we deze hypothese en identificeren we de specifieke patronen die worden geleerd: instructiepatronen en triggerwoorden. Ons onderzoek volgt een systematische aanpak, waarbij we eerst vergelijkbare prestaties van eenvoudige n-gram methoden aantonen, vervolgens gecontroleerde experimenten uitvoeren met semantisch opgeschoonde datasets, en ten slotte een gedetailleerde analyse maken van patroonafhankelijkheden. Deze resultaten onthullen een vals gevoel van veiligheid rond de huidige op sondering gebaseerde benaderingen en benadrukken de noodzaak om zowel modellen als evaluatieprotocollen te herontwerpen, waarvoor we verdere discussies bieden in de hoop verantwoord vervolgonderzoek in deze richting te suggereren. We hebben het project openbaar gemaakt op https://github.com/WangCheng0116/Why-Probe-Fails.

English

Large Language Models (LLMs) can comply with harmful instructions, raising serious safety concerns despite their impressive capabilities. Recent work has leveraged probing-based approaches to study the separability of malicious and benign inputs in LLMs' internal representations, and researchers have proposed using such probing methods for safety detection. We systematically re-examine this paradigm. Motivated by poor out-of-distribution performance, we hypothesize that probes learn superficial patterns rather than semantic harmfulness. Through controlled experiments, we confirm this hypothesis and identify the specific patterns learned: instructional patterns and trigger words. Our investigation follows a systematic approach, progressing from demonstrating comparable performance of simple n-gram methods, to controlled experiments with semantically cleaned datasets, to detailed analysis of pattern dependencies. These results reveal a false sense of security around current probing-based approaches and highlight the need to redesign both models and evaluation protocols, for which we provide further discussions in the hope of suggesting responsible further research in this direction. We have open-sourced the project at https://github.com/WangCheng0116/Why-Probe-Fails.

Valse Veiligheid: Waarom Detectie van Kwaadaardige Inputs op Basis van Probing Mislukt in Generalisatie

False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

Samenvatting

Support