Falsa Sicurezza: Perché il Rilevamento di Input Maligni Basato su Probe Non Riesce a Generalizzare
False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize
September 4, 2025
Autori: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen
cs.AI
Abstract
I Large Language Model (LLM) possono conformarsi a istruzioni dannose, sollevando serie preoccupazioni in termini di sicurezza nonostante le loro impressionanti capacità. Recenti lavori hanno sfruttato approcci basati sul probing per studiare la separabilità degli input malevoli e benigni nelle rappresentazioni interne degli LLM, e i ricercatori hanno proposto di utilizzare tali metodi di probing per il rilevamento della sicurezza. Noi esaminiamo sistematicamente questo paradigma. Motivati dalle scarse prestazioni fuori distribuzione, ipotizziamo che le sonde apprendano pattern superficiali piuttosto che la dannosità semantica. Attraverso esperimenti controllati, confermiamo questa ipotesi e identifichiamo i pattern specifici appresi: pattern di istruzione e parole chiave. La nostra indagine segue un approccio sistematico, passando dalla dimostrazione di prestazioni comparabili con metodi semplici basati su n-grammi, a esperimenti controllati con dataset semanticamente ripuliti, fino a un'analisi dettagliata delle dipendenze dei pattern. Questi risultati rivelano un falso senso di sicurezza riguardo agli attuali approcci basati sul probing e sottolineano la necessità di ridisegnare sia i modelli che i protocolli di valutazione, per i quali forniamo ulteriori discussioni con l'obiettivo di suggerire ricerche responsabili in questa direzione. Abbiamo reso open-source il progetto all'indirizzo https://github.com/WangCheng0116/Why-Probe-Fails.
English
Large Language Models (LLMs) can comply with harmful instructions, raising
serious safety concerns despite their impressive capabilities. Recent work has
leveraged probing-based approaches to study the separability of malicious and
benign inputs in LLMs' internal representations, and researchers have proposed
using such probing methods for safety detection. We systematically re-examine
this paradigm. Motivated by poor out-of-distribution performance, we
hypothesize that probes learn superficial patterns rather than semantic
harmfulness. Through controlled experiments, we confirm this hypothesis and
identify the specific patterns learned: instructional patterns and trigger
words. Our investigation follows a systematic approach, progressing from
demonstrating comparable performance of simple n-gram methods, to controlled
experiments with semantically cleaned datasets, to detailed analysis of pattern
dependencies. These results reveal a false sense of security around current
probing-based approaches and highlight the need to redesign both models and
evaluation protocols, for which we provide further discussions in the hope of
suggesting responsible further research in this direction. We have open-sourced
the project at https://github.com/WangCheng0116/Why-Probe-Fails.