Quando a Avaliação de Segurança Comportamental Falha: Uma Perspectiva ao Nível da Representação

Resumo

A segurança de Modelos de Linguagem de Grande Escala (LLMs) tem sido frequentemente avaliada no nível comportamental, o que fornece evidências limitadas de robustez interna, pois essas avaliações visam os resultados em vez da vulnerabilidade no nível de representação sob intervenção. Formalizamos essa discrepância como a lacuna de auditoria: a diferença entre segurança comportamental e robustez sob intervenção. Para estudar essa lacuna, construímos modelos dissociados que preservam um comportamento externo seguro, mas permanecem vulneráveis no espaço latente. Introduzimos uma estrutura de avaliação baseada em intervenções para testar a robustez do modelo por meio de intervenções suaves nos espaços de parâmetros e latentes, incluindo ajuste fino prejudicial e perturbações latentes camada a camada. Para formalizar a avaliação, propomos a Pontuação de Vulnerabilidade Latente (LVS) para medir a facilidade com que o comportamento prejudicial pode ser eliciado por perturbações latentes limitadas. Usando essa estrutura de avaliação, mostramos que as métricas de segurança comportamental são medidas insuficientes de robustez no nível de representação em vários modelos de última geração alinhados de forma segura e insegura. Notavelmente, modelos dissociados apresentam LVSs substancialmente elevadas, apesar do comportamento de recusa comparável sob intervenção prejudicial, sendo as representações intermediárias as mais sensíveis à intervenção. Nossos resultados sugerem que apenas a avaliação de segurança comportamental fornece um quadro incompleto da robustez do modelo, motivando auditorias conscientes de representação sobre vulnerabilidade latente e comportamento observável.

English

Large Language Model (LLM) safety has often been evaluated at the behavior level, which provides limited evidence of internal robustness, as these evaluations target outputs rather than representation-level vulnerability under intervention. We formalize this discrepancy as the audit gap: the difference between behavioral safety and robustness under intervention. To study this gap, we construct dissociated models that preserve safe outward behavior while remaining vulnerable in the latent space. We introduce an intervention-based evaluation framework to test model robustness through soft interventions in parameter and latent spaces, including harmful fine-tuning and layer-wise latent perturbations. To formalize the evaluation, we propose the Latent Vulnerability Score (LVS) to measure how easily harmful behavior can be elicited by bounded latent perturbations. Using this evaluation framework, we show that behavioral safety metrics are insufficient measures of representation-level robustness across multiple safely and unsafely aligned state-of-the-art models. Notably, dissociated models show substantially elevated LVSs despite comparable refusal behavior under harmful intervention, with intermediate representations being the most sensitive to intervention. Our results suggest that behavioral safety evaluation alone provides an incomplete picture of model robustness, motivating representation-aware audits of latent vulnerability and observable behavior.