ChatPaper.aiChatPaper

Bijna zeker veilige afstemming van grote taalmodellen op inferentietijd.

Almost Surely Safe Alignment of Large Language Models at Inference-Time

February 3, 2025
Auteurs: Xiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar
cs.AI

Samenvatting

Zelfs zeer capabele grote taalmodellen (LLM's) kunnen vooringenomen of onveilige reacties produceren, en afstemmingstechnieken, zoals RLHF, gericht op het verminderen van dit probleem, zijn duur en gevoelig voor overpassing omdat ze het LLM opnieuw trainen. Dit artikel introduceert een nieuw inferentie-tijd afstemmingsbenadering die ervoor zorgt dat LLM's vrijwel zeker veilige reacties genereren, d.w.z., met een waarschijnlijkheid die naar één nadert. We bereiken dit door het veilig genereren van inferentie-tijd reacties te formuleren als een beperkt Markov-beslissingsproces binnen de latente ruimte van het LLM. Cruciaal is dat we een veiligheidsstaat toevoegen die de evolutie van veiligheidsbeperkingen bijhoudt en ons in staat stelt formele veiligheidsgaranties te demonstreren bij het oplossen van het MDP in de latente ruimte. Voortbouwend op deze basis stellen we InferenceGuard voor, een praktische implementatie die LLM's veilig afstemt zonder de modelgewichten aan te passen. Empirisch tonen we aan dat InferenceGuard veiligheid en taakprestaties effectief in balans brengt, bestaande inferentie-tijd afstemmingsmethoden overtreft in het genereren van veilige en afgestemde reacties.
English
Even highly capable large language models (LLMs) can produce biased or unsafe responses, and alignment techniques, such as RLHF, aimed at mitigating this issue, are expensive and prone to overfitting as they retrain the LLM. This paper introduces a novel inference-time alignment approach that ensures LLMs generate safe responses almost surely, i.e., with a probability approaching one. We achieve this by framing the safe generation of inference-time responses as a constrained Markov decision process within the LLM's latent space. Crucially, we augment a safety state that tracks the evolution of safety constraints and enables us to demonstrate formal safety guarantees upon solving the MDP in the latent space. Building on this foundation, we propose InferenceGuard, a practical implementation that safely aligns LLMs without modifying the model weights. Empirically, we demonstrate InferenceGuard effectively balances safety and task performance, outperforming existing inference-time alignment methods in generating safe and aligned responses.

Summary

AI-Generated Summary

PDF112February 4, 2025