ChatPaper.aiChatPaper

Falsa sensación de seguridad: Por qué la detección de entradas maliciosas basada en sondeos no logra generalizar

False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

September 4, 2025
Autores: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) pueden cumplir con instrucciones dañinas, lo que plantea serias preocupaciones de seguridad a pesar de sus impresionantes capacidades. Trabajos recientes han utilizado enfoques basados en sondeos para estudiar la separabilidad de entradas maliciosas y benignas en las representaciones internas de los LLMs, y los investigadores han propuesto emplear dichos métodos de sondeo para la detección de seguridad. Reexaminamos sistemáticamente este paradigma. Motivados por el bajo rendimiento fuera de distribución, planteamos la hipótesis de que los sondeos aprenden patrones superficiales en lugar de la nocividad semántica. A través de experimentos controlados, confirmamos esta hipótesis e identificamos los patrones específicos aprendidos: patrones instructivos y palabras desencadenantes. Nuestra investigación sigue un enfoque sistemático, avanzando desde la demostración de un rendimiento comparable de métodos simples de n-gramas, hasta experimentos controlados con conjuntos de datos semánticamente limpios, y un análisis detallado de las dependencias de patrones. Estos resultados revelan una falsa sensación de seguridad en torno a los enfoques actuales basados en sondeos y destacan la necesidad de rediseñar tanto los modelos como los protocolos de evaluación, para lo cual proporcionamos discusiones adicionales con la esperanza de sugerir investigaciones responsables en esta dirección. Hemos hecho público el proyecto en https://github.com/WangCheng0116/Why-Probe-Fails.
English
Large Language Models (LLMs) can comply with harmful instructions, raising serious safety concerns despite their impressive capabilities. Recent work has leveraged probing-based approaches to study the separability of malicious and benign inputs in LLMs' internal representations, and researchers have proposed using such probing methods for safety detection. We systematically re-examine this paradigm. Motivated by poor out-of-distribution performance, we hypothesize that probes learn superficial patterns rather than semantic harmfulness. Through controlled experiments, we confirm this hypothesis and identify the specific patterns learned: instructional patterns and trigger words. Our investigation follows a systematic approach, progressing from demonstrating comparable performance of simple n-gram methods, to controlled experiments with semantically cleaned datasets, to detailed analysis of pattern dependencies. These results reveal a false sense of security around current probing-based approaches and highlight the need to redesign both models and evaluation protocols, for which we provide further discussions in the hope of suggesting responsible further research in this direction. We have open-sourced the project at https://github.com/WangCheng0116/Why-Probe-Fails.
PDF02September 5, 2025