Allineamento quasi certamente sicuro dei grandi modelli linguistici durante il tempo di inferenza
Almost Surely Safe Alignment of Large Language Models at Inference-Time
February 3, 2025
Autori: Xiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar
cs.AI
Abstract
Anche i modelli di linguaggio di grandi dimensioni (LLM) altamente capaci possono produrre risposte sbagliate o non sicure, e le tecniche di allineamento, come RLHF, mirate a mitigare questo problema, sono costose e soggette all'overfitting poiché ritraining del LLM. Questo articolo introduce un nuovo approccio di allineamento al momento dell'inferenza che garantisce che i LLM generino risposte sicure quasi certamente, cioè con una probabilità che si avvicina a uno. Otteniamo ciò formulando la generazione sicura delle risposte al momento dell'inferenza come un processo decisionale di Markov vincolato all'interno dello spazio latente del LLM. In modo cruciale, aggiungiamo uno stato di sicurezza che tiene traccia dell'evoluzione dei vincoli di sicurezza e ci consente di dimostrare garanzie formali di sicurezza risolvendo il MDP nello spazio latente. Sulla base di questo fondamento, proponiamo InferenceGuard, un'implementazione pratica che allinea in modo sicuro i LLM senza modificare i pesi del modello. In modo empirico, dimostriamo che InferenceGuard bilancia efficacemente sicurezza e prestazioni del compito, superando i metodi di allineamento al momento dell'inferenza esistenti nella generazione di risposte sicure e allineate.
English
Even highly capable large language models (LLMs) can produce biased or unsafe
responses, and alignment techniques, such as RLHF, aimed at mitigating this
issue, are expensive and prone to overfitting as they retrain the LLM. This
paper introduces a novel inference-time alignment approach that ensures LLMs
generate safe responses almost surely, i.e., with a probability approaching
one. We achieve this by framing the safe generation of inference-time responses
as a constrained Markov decision process within the LLM's latent space.
Crucially, we augment a safety state that tracks the evolution of safety
constraints and enables us to demonstrate formal safety guarantees upon solving
the MDP in the latent space. Building on this foundation, we propose
InferenceGuard, a practical implementation that safely aligns LLMs without
modifying the model weights. Empirically, we demonstrate InferenceGuard
effectively balances safety and task performance, outperforming existing
inference-time alignment methods in generating safe and aligned responses.Summary
AI-Generated Summary