Alinhamento Quase Certamente Seguro de Modelos de Linguagem Grandes no Momento da Inferência
Almost Surely Safe Alignment of Large Language Models at Inference-Time
February 3, 2025
Autores: Xiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar
cs.AI
Resumo
Mesmo modelos de linguagem grandes (LLMs) altamente capazes podem produzir respostas enviesadas ou inseguras, e técnicas de alinhamento, como RLHF, destinadas a mitigar esse problema, são caras e propensas ao overfitting, pois retratam o LLM. Este artigo apresenta uma abordagem de alinhamento no momento da inferência que garante que os LLMs gerem respostas seguras quase com certeza, ou seja, com uma probabilidade que se aproxima de um. Conseguimos isso ao enquadrar a geração segura de respostas no momento da inferência como um processo de decisão de Markov restrito dentro do espaço latente do LLM. Crucialmente, nós aumentamos um estado de segurança que acompanha a evolução das restrições de segurança e nos permite demonstrar garantias formais de segurança ao resolver o MDP no espaço latente. Com base nesse fundamento, propomos o InferenceGuard, uma implementação prática que alinha seguramente os LLMs sem modificar os pesos do modelo. Empiricamente, demonstramos que o InferenceGuard equilibra efetivamente a segurança e o desempenho da tarefa, superando os métodos de alinhamento no momento da inferência existentes na geração de respostas seguras e alinhadas.
English
Even highly capable large language models (LLMs) can produce biased or unsafe
responses, and alignment techniques, such as RLHF, aimed at mitigating this
issue, are expensive and prone to overfitting as they retrain the LLM. This
paper introduces a novel inference-time alignment approach that ensures LLMs
generate safe responses almost surely, i.e., with a probability approaching
one. We achieve this by framing the safe generation of inference-time responses
as a constrained Markov decision process within the LLM's latent space.
Crucially, we augment a safety state that tracks the evolution of safety
constraints and enables us to demonstrate formal safety guarantees upon solving
the MDP in the latent space. Building on this foundation, we propose
InferenceGuard, a practical implementation that safely aligns LLMs without
modifying the model weights. Empirically, we demonstrate InferenceGuard
effectively balances safety and task performance, outperforming existing
inference-time alignment methods in generating safe and aligned responses.Summary
AI-Generated Summary