活性の輸送による言語および拡散モデルの制御
Controlling Language and Diffusion Models by Transporting Activations
October 30, 2024
著者: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI
要旨
大規模生成モデルの能力が向上し、ますます広範囲に展開されることにより、信頼性、安全性、および潜在的な誤用に関する懸念が高まっています。これらの問題に対処するため、最近の研究では、生成された出力における概念や振る舞いの出現を効果的に誘発または防止するために、モデルの生成を制御することが提案されています。本論文では、最適輸送理論によって誘導されるアクティベーションを誘導するための一般的なフレームワークであるActivation Transport(AcT)を紹介します。AcTはモダリティに依存せず、計算オーバーヘッドが無視できる程度でモデルの振る舞いを細かく制御し、モデルの能力にほとんど影響を与えません。実験により、LLM(大規模言語モデル)およびT2I(テキストから画像への拡散モデル)における主要な課題に取り組むことで、アプローチの効果と汎用性を示します。LLMでは、AcTが有害性を効果的に軽減し、任意の概念を誘発し、真実性を高めることができることを示します。T2Iでは、AcTが細かいスタイル制御や概念の否定を可能にする方法を示します。
English
The increasing capabilities of large generative models and their ever more
widespread deployment have raised concerns about their reliability, safety, and
potential misuse. To address these issues, recent works have proposed to
control model generation by steering model activations in order to effectively
induce or prevent the emergence of concepts or behaviors in the generated
output. In this paper we introduce Activation Transport (AcT), a general
framework to steer activations guided by optimal transport theory that
generalizes many previous activation-steering works. AcT is modality-agnostic
and provides fine-grained control over the model behavior with negligible
computational overhead, while minimally impacting model abilities. We
experimentally show the effectiveness and versatility of our approach by
addressing key challenges in large language models (LLMs) and text-to-image
diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate
toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is,
we show how AcT enables fine-grained style control and concept negation.Summary
AI-Generated Summary