Controlando Modelos de Linguagem e de Difusão por Meio do Transporte de Ativações
Controlling Language and Diffusion Models by Transporting Activations
October 30, 2024
Autores: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI
Resumo
As crescentes capacidades dos grandes modelos generativos e sua implantação cada vez mais difundida têm levantado preocupações sobre sua confiabilidade, segurança e possíveis usos indevidos. Para lidar com essas questões, trabalhos recentes têm proposto controlar a geração do modelo direcionando as ativações do modelo a fim de induzir ou prevenir de forma eficaz o surgimento de conceitos ou comportamentos na saída gerada. Neste artigo, introduzimos o Transporte de Ativação (AcT), um framework geral para direcionar ativações guiado pela teoria do transporte ótimo que generaliza muitos trabalhos anteriores de direcionamento de ativação. O AcT é agnóstico em relação à modalidade e fornece controle detalhado sobre o comportamento do modelo com sobrecarga computacional negligenciável, minimizando o impacto nas habilidades do modelo. Demonstramos experimentalmente a eficácia e versatilidade de nossa abordagem ao abordar desafios-chave em grandes modelos de linguagem (LLMs) e modelos de difusão de texto para imagem (T2Is). Para LLMs, mostramos que o AcT pode mitigar eficazmente a toxicidade, induzir conceitos arbitrários e aumentar sua veracidade. Nos T2Is, mostramos como o AcT permite controle detalhado de estilo e negação de conceitos.
English
The increasing capabilities of large generative models and their ever more
widespread deployment have raised concerns about their reliability, safety, and
potential misuse. To address these issues, recent works have proposed to
control model generation by steering model activations in order to effectively
induce or prevent the emergence of concepts or behaviors in the generated
output. In this paper we introduce Activation Transport (AcT), a general
framework to steer activations guided by optimal transport theory that
generalizes many previous activation-steering works. AcT is modality-agnostic
and provides fine-grained control over the model behavior with negligible
computational overhead, while minimally impacting model abilities. We
experimentally show the effectiveness and versatility of our approach by
addressing key challenges in large language models (LLMs) and text-to-image
diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate
toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is,
we show how AcT enables fine-grained style control and concept negation.Summary
AI-Generated Summary