Falsa Sensação de Segurança: Por que a Detecção de Entradas Maliciosas Baseada em Sondagem Falha em Generalizar
False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize
September 4, 2025
Autores: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) podem cumprir instruções prejudiciais, levantando sérias preocupações de segurança, apesar de suas capacidades impressionantes. Trabalhos recentes têm utilizado abordagens baseadas em sondagem para estudar a separabilidade de entradas maliciosas e benignas nas representações internas dos LLMs, e pesquisadores propuseram o uso de tais métodos de sondagem para detecção de segurança. Reexaminamos sistematicamente esse paradigma. Motivados pelo fraco desempenho fora da distribuição, levantamos a hipótese de que as sondagens aprendem padrões superficiais em vez de nocividade semântica. Por meio de experimentos controlados, confirmamos essa hipótese e identificamos os padrões específicos aprendidos: padrões instrucionais e palavras-chave. Nossa investigação segue uma abordagem sistemática, progredindo desde a demonstração de desempenho comparável de métodos simples de n-gramas, até experimentos controlados com conjuntos de dados semanticamente limpos, e análise detalhada das dependências de padrões. Esses resultados revelam uma falsa sensação de segurança em torno das abordagens atuais baseadas em sondagem e destacam a necessidade de redesenhar tanto os modelos quanto os protocolos de avaliação, para os quais fornecemos discussões adicionais na esperança de sugerir pesquisas responsáveis nessa direção. Disponibilizamos o projeto em código aberto em https://github.com/WangCheng0116/Why-Probe-Fails.
English
Large Language Models (LLMs) can comply with harmful instructions, raising
serious safety concerns despite their impressive capabilities. Recent work has
leveraged probing-based approaches to study the separability of malicious and
benign inputs in LLMs' internal representations, and researchers have proposed
using such probing methods for safety detection. We systematically re-examine
this paradigm. Motivated by poor out-of-distribution performance, we
hypothesize that probes learn superficial patterns rather than semantic
harmfulness. Through controlled experiments, we confirm this hypothesis and
identify the specific patterns learned: instructional patterns and trigger
words. Our investigation follows a systematic approach, progressing from
demonstrating comparable performance of simple n-gram methods, to controlled
experiments with semantically cleaned datasets, to detailed analysis of pattern
dependencies. These results reveal a false sense of security around current
probing-based approaches and highlight the need to redesign both models and
evaluation protocols, for which we provide further discussions in the hope of
suggesting responsible further research in this direction. We have open-sourced
the project at https://github.com/WangCheng0116/Why-Probe-Fails.