推論時の大規模言語モデルのほぼ確実に安全なアラインメント
Almost Surely Safe Alignment of Large Language Models at Inference-Time
February 3, 2025
著者: Xiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar
cs.AI
要旨
非常に能力の高い大規模言語モデル(LLM)でさえ、バイアスのあるまたは安全でない応答を生成することがあり、RLHFなどのアラインメント技術は、この問題を緩和することを目的としており、LLMを再トレーニングすることで過学習しやすいという欠点があります。本論文では、LLMが安全な応答をほぼ確実に生成する推論時のアラインメント手法を紹介します。これは、安全性制約の進化を追跡する安全状態を拡張し、潜在空間内のMDPを解決することで形式的な安全性保証を実証できるようにします。この基盤を活用して、モデルの重みを変更することなく、LLMを安全にアラインメントする実用的な実装であるInferenceGuardを提案します。実証的に、InferenceGuardは安全性とタスクパフォーマンスを効果的にバランスし、安全でアラインされた応答を生成する点で既存の推論時のアラインメント方法を上回ることを示します。
English
Even highly capable large language models (LLMs) can produce biased or unsafe
responses, and alignment techniques, such as RLHF, aimed at mitigating this
issue, are expensive and prone to overfitting as they retrain the LLM. This
paper introduces a novel inference-time alignment approach that ensures LLMs
generate safe responses almost surely, i.e., with a probability approaching
one. We achieve this by framing the safe generation of inference-time responses
as a constrained Markov decision process within the LLM's latent space.
Crucially, we augment a safety state that tracks the evolution of safety
constraints and enables us to demonstrate formal safety guarantees upon solving
the MDP in the latent space. Building on this foundation, we propose
InferenceGuard, a practical implementation that safely aligns LLMs without
modifying the model weights. Empirically, we demonstrate InferenceGuard
effectively balances safety and task performance, outperforming existing
inference-time alignment methods in generating safe and aligned responses.Summary
AI-Generated Summary