Cuando la Evaluación de Seguridad Conductual Falla: Una Perspectiva a Nivel de Representación

Resumen

La seguridad de los Modelos de Lenguaje de Gran Escala (LLM) se ha evaluado habitualmente a nivel conductual, lo que proporciona evidencia limitada sobre la robustez interna, ya que estas evaluaciones se centran en los resultados en lugar de en la vulnerabilidad a nivel de representación bajo intervención. Formalizamos esta discrepancia como la **brecha de auditoría**: la diferencia entre la seguridad conductual y la robustez bajo intervención. Para estudiar esta brecha, construimos modelos disociados que preservan un comportamiento externo seguro mientras permanecen vulnerables en el espacio latente. Introducimos un marco de evaluación basado en intervenciones para evaluar la robustez del modelo mediante intervenciones suaves en los espacios de parámetros y latentes, incluyendo el ajuste fino nocivo y las perturbaciones latentes capa por capa. Para formalizar la evaluación, proponemos el **Puntaje de Vulnerabilidad Latente (LVS)** para medir la facilidad con la que se puede provocar un comportamiento nocivo mediante perturbaciones latentes acotadas. Utilizando este marco de evaluación, demostramos que las métricas de seguridad conductual son insuficientes para medir la robustez a nivel de representación en múltiples modelos de última generación alineados de manera segura e insegura. En particular, los modelos disociados muestran LVSs significativamente elevados a pesar de un comportamiento de rechazo comparable bajo intervención nociva, siendo las representaciones intermedias las más sensibles a la intervención. Nuestros resultados sugieren que la evaluación de la seguridad conductual por sí sola proporciona una imagen incompleta de la robustez del modelo, lo que motiva auditorías conscientes de la representación tanto de la vulnerabilidad latente como del comportamiento observable.

English

Large Language Model (LLM) safety has often been evaluated at the behavior level, which provides limited evidence of internal robustness, as these evaluations target outputs rather than representation-level vulnerability under intervention. We formalize this discrepancy as the audit gap: the difference between behavioral safety and robustness under intervention. To study this gap, we construct dissociated models that preserve safe outward behavior while remaining vulnerable in the latent space. We introduce an intervention-based evaluation framework to test model robustness through soft interventions in parameter and latent spaces, including harmful fine-tuning and layer-wise latent perturbations. To formalize the evaluation, we propose the Latent Vulnerability Score (LVS) to measure how easily harmful behavior can be elicited by bounded latent perturbations. Using this evaluation framework, we show that behavioral safety metrics are insufficient measures of representation-level robustness across multiple safely and unsafely aligned state-of-the-art models. Notably, dissociated models show substantially elevated LVSs despite comparable refusal behavior under harmful intervention, with intermediate representations being the most sensitive to intervention. Our results suggest that behavioral safety evaluation alone provides an incomplete picture of model robustness, motivating representation-aware audits of latent vulnerability and observable behavior.