Alignement presque certainement sûr des grands modèles de langage lors de l'inférence
Almost Surely Safe Alignment of Large Language Models at Inference-Time
February 3, 2025
Auteurs: Xiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar
cs.AI
Résumé
Même les modèles de langage de grande taille (LLMs) très performants peuvent produire des réponses biaisées ou non sécurisées, et les techniques d'alignement, telles que RLHF, visant à atténuer ce problème, sont coûteuses et sujettes au surapprentissage car elles réentraînent le LLM. Cet article présente une nouvelle approche d'alignement au moment de l'inférence qui garantit que les LLM génèrent des réponses sûres presque certainement, c'est-à-dire avec une probabilité approchant l'unité. Nous parvenons à cela en encadrant la génération sûre des réponses au moment de l'inférence comme un processus de décision de Markov contraint dans l'espace latent du LLM. De manière cruciale, nous ajoutons un état de sécurité qui suit l'évolution des contraintes de sécurité et nous permet de démontrer des garanties formelles de sécurité en résolvant le MDP dans l'espace latent. Sur cette base, nous proposons InferenceGuard, une implémentation pratique qui aligne en toute sécurité les LLMs sans modifier les poids du modèle. Empiriquement, nous démontrons qu'InferenceGuard équilibre efficacement la sécurité et la performance des tâches, surpassant les méthodes d'alignement au moment de l'inférence existantes dans la génération de réponses sûres et alignées.
English
Even highly capable large language models (LLMs) can produce biased or unsafe
responses, and alignment techniques, such as RLHF, aimed at mitigating this
issue, are expensive and prone to overfitting as they retrain the LLM. This
paper introduces a novel inference-time alignment approach that ensures LLMs
generate safe responses almost surely, i.e., with a probability approaching
one. We achieve this by framing the safe generation of inference-time responses
as a constrained Markov decision process within the LLM's latent space.
Crucially, we augment a safety state that tracks the evolution of safety
constraints and enables us to demonstrate formal safety guarantees upon solving
the MDP in the latent space. Building on this foundation, we propose
InferenceGuard, a practical implementation that safely aligns LLMs without
modifying the model weights. Empirically, we demonstrate InferenceGuard
effectively balances safety and task performance, outperforming existing
inference-time alignment methods in generating safe and aligned responses.Summary
AI-Generated Summary