Nahezu sichere Ausrichtung großer Sprachmodelle zur Inferenzzeit
Almost Surely Safe Alignment of Large Language Models at Inference-Time
February 3, 2025
Autoren: Xiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar
cs.AI
Zusammenfassung
Auch hochentwickelte große Sprachmodelle (LLMs) können voreingenommene oder unsichere Antworten liefern, und Ausrichtungstechniken wie RLHF, die darauf abzielen, dieses Problem zu mildern, sind teuer und anfällig für Overfitting, da sie das LLM neu trainieren. Dieser Artikel stellt einen neuartigen Ansatz zur Ausrichtung zur Inferenzzeit vor, der sicherstellt, dass LLMs mit hoher Wahrscheinlichkeit sichere Antworten generieren, d. h. mit einer Wahrscheinlichkeit, die gegen eins strebt. Dies wird erreicht, indem die sichere Generierung von Antworten zur Inferenzzeit als ein eingeschränkter Markov-Entscheidungsprozess im latenten Raum des LLMs formuliert wird. Wesentlich ist, dass wir einen Sicherheitszustand ergänzen, der die Entwicklung von Sicherheitsbeschränkungen verfolgt und es uns ermöglicht, formale Sicherheitsgarantien nach der Lösung des MDP im latenten Raum zu demonstrieren. Aufbauend auf diesem Fundament schlagen wir InferenceGuard vor, eine praktische Implementierung, die LLMs sicher ausrichtet, ohne die Modellgewichte zu verändern. Empirisch zeigen wir, dass InferenceGuard Sicherheit und Aufgabenerfüllung effektiv ausbalanciert und vorhandene Ausrichtungsmethoden zur Inferenzzeit in der Generierung sicherer und ausgerichteter Antworten übertrifft.
English
Even highly capable large language models (LLMs) can produce biased or unsafe
responses, and alignment techniques, such as RLHF, aimed at mitigating this
issue, are expensive and prone to overfitting as they retrain the LLM. This
paper introduces a novel inference-time alignment approach that ensures LLMs
generate safe responses almost surely, i.e., with a probability approaching
one. We achieve this by framing the safe generation of inference-time responses
as a constrained Markov decision process within the LLM's latent space.
Crucially, we augment a safety state that tracks the evolution of safety
constraints and enables us to demonstrate formal safety guarantees upon solving
the MDP in the latent space. Building on this foundation, we propose
InferenceGuard, a practical implementation that safely aligns LLMs without
modifying the model weights. Empirically, we demonstrate InferenceGuard
effectively balances safety and task performance, outperforming existing
inference-time alignment methods in generating safe and aligned responses.Summary
AI-Generated Summary