Alineación Casi Seguramente Segura de Modelos de Lenguaje Grandes en Tiempo de Inferencia
Almost Surely Safe Alignment of Large Language Models at Inference-Time
February 3, 2025
Autores: Xiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar
cs.AI
Resumen
Incluso los modelos de lenguaje grandes (LLMs) altamente capaces pueden producir respuestas sesgadas o inseguras, y las técnicas de alineación, como RLHF, destinadas a mitigar este problema, son costosas y propensas al sobreajuste al reentrenar el LLM. Este artículo presenta un novedoso enfoque de alineación en tiempo de inferencia que garantiza que los LLMs generen respuestas seguras casi con certeza, es decir, con una probabilidad que tiende a uno. Logramos esto enmarcando la generación segura de respuestas en tiempo de inferencia como un proceso de decisión de Markov restringido dentro del espacio latente del LLM. Esencialmente, ampliamos un estado de seguridad que sigue la evolución de las restricciones de seguridad y nos permite demostrar garantías formales de seguridad al resolver el MDP en el espacio latente. Sobre esta base, proponemos InferenceGuard, una implementación práctica que alinea de manera segura los LLMs sin modificar los pesos del modelo. Empíricamente, demostramos que InferenceGuard equilibra de manera efectiva la seguridad y el rendimiento de la tarea, superando a los métodos de alineación en tiempo de inferencia existentes en la generación de respuestas seguras y alineadas.
English
Even highly capable large language models (LLMs) can produce biased or unsafe
responses, and alignment techniques, such as RLHF, aimed at mitigating this
issue, are expensive and prone to overfitting as they retrain the LLM. This
paper introduces a novel inference-time alignment approach that ensures LLMs
generate safe responses almost surely, i.e., with a probability approaching
one. We achieve this by framing the safe generation of inference-time responses
as a constrained Markov decision process within the LLM's latent space.
Crucially, we augment a safety state that tracks the evolution of safety
constraints and enables us to demonstrate formal safety guarantees upon solving
the MDP in the latent space. Building on this foundation, we propose
InferenceGuard, a practical implementation that safely aligns LLMs without
modifying the model weights. Empirically, we demonstrate InferenceGuard
effectively balances safety and task performance, outperforming existing
inference-time alignment methods in generating safe and aligned responses.Summary
AI-Generated Summary