ChatPaper.aiChatPaper

¿Por qué los barcos protegidos encallan? Los mecanismos de seguridad de los modelos de lenguaje grandes alineados tienden a estar anclados en la región de la plantilla.

Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

February 19, 2025
Autores: Chak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li
cs.AI

Resumen

La alineación de seguridad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo vulnerable, ya que su comportamiento inicial puede ser fácilmente vulnerado incluso con ataques relativamente simples. Dado que rellenar una plantilla fija entre la instrucción de entrada y la salida inicial del modelo es una práctica común en los LLMs existentes, planteamos la hipótesis de que esta plantilla es un factor clave detrás de sus vulnerabilidades: la toma de decisiones relacionadas con la seguridad en los LLMs depende en exceso de la información agregada de la región de la plantilla, lo que influye significativamente en el comportamiento de seguridad de estos modelos. Nos referimos a este problema como la alineación de seguridad anclada en la plantilla. En este artículo, realizamos experimentos exhaustivos y verificamos que la alineación de seguridad anclada en la plantilla está ampliamente extendida en varios LLMs alineados. Nuestros análisis mecanicistas demuestran cómo esto conduce a la susceptibilidad de los modelos cuando se enfrentan a ataques de vulneración en tiempo de inferencia. Además, mostramos que desvincular los mecanismos de seguridad de la región de la plantilla es prometedor para mitigar las vulnerabilidades a los ataques de vulneración. Alentamos a futuras investigaciones a desarrollar técnicas de alineación de seguridad más robustas que reduzcan la dependencia de la región de la plantilla.
English
The safety alignment of large language models (LLMs) remains vulnerable, as their initial behavior can be easily jailbroken by even relatively simple attacks. Since infilling a fixed template between the input instruction and initial model output is a common practice for existing LLMs, we hypothesize that this template is a key factor behind their vulnerabilities: LLMs' safety-related decision-making overly relies on the aggregated information from the template region, which largely influences these models' safety behavior. We refer to this issue as template-anchored safety alignment. In this paper, we conduct extensive experiments and verify that template-anchored safety alignment is widespread across various aligned LLMs. Our mechanistic analyses demonstrate how it leads to models' susceptibility when encountering inference-time jailbreak attacks. Furthermore, we show that detaching safety mechanisms from the template region is promising in mitigating vulnerabilities to jailbreak attacks. We encourage future research to develop more robust safety alignment techniques that reduce reliance on the template region.

Summary

AI-Generated Summary

PDF102February 20, 2025