Почти наверняка безопасное выравнивание крупных языковых моделей во время вывода
Almost Surely Safe Alignment of Large Language Models at Inference-Time
February 3, 2025
Авторы: Xiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar
cs.AI
Аннотация
Даже высококвалифицированные большие языковые модели (LLM) могут производить предвзятые или небезопасные ответы, и техники выравнивания, такие как RLHF, направленные на смягчение этой проблемы, являются дорогостоящими и склонны к переобучению, так как переобучают LLM. В данной статье представлен новый подход к выравниванию на этапе вывода, который обеспечивает LLM генерацию безопасных ответов практически наверняка, т.е. с вероятностью, стремящейся к единице. Мы достигаем этого, формулируя безопасную генерацию ответов на этапе вывода как ограниченный процесс принятия решений Маркова в скрытом пространстве LLM. Критически важно, что мы дополняем состояние безопасности, отслеживающее эволюцию безопасных ограничений и позволяющее нам продемонстрировать формальные гарантии безопасности при решении MDP в скрытом пространстве. На основе этого фундамента мы предлагаем InferenceGuard, практическую реализацию, которая безопасно выравнивает LLM без изменения весов модели. Эмпирически мы демонстрируем, что InferenceGuard эффективно балансирует безопасность и производительность задачи, превосходя существующие методы выравнивания на этапе вывода в генерации безопасных и выровненных ответов.
English
Even highly capable large language models (LLMs) can produce biased or unsafe
responses, and alignment techniques, such as RLHF, aimed at mitigating this
issue, are expensive and prone to overfitting as they retrain the LLM. This
paper introduces a novel inference-time alignment approach that ensures LLMs
generate safe responses almost surely, i.e., with a probability approaching
one. We achieve this by framing the safe generation of inference-time responses
as a constrained Markov decision process within the LLM's latent space.
Crucially, we augment a safety state that tracks the evolution of safety
constraints and enables us to demonstrate formal safety guarantees upon solving
the MDP in the latent space. Building on this foundation, we propose
InferenceGuard, a practical implementation that safely aligns LLMs without
modifying the model weights. Empirically, we demonstrate InferenceGuard
effectively balances safety and task performance, outperforming existing
inference-time alignment methods in generating safe and aligned responses.Summary
AI-Generated Summary