Управление языковыми и диффузионными моделями путем передачи активаций.
Controlling Language and Diffusion Models by Transporting Activations
October 30, 2024
Авторы: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI
Аннотация
Увеличение возможностей крупных генеративных моделей и их все более широкое применение вызвали опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние работы предложили контролировать генерацию модели путем управления активациями модели для эффективного индукции или предотвращения появления концепций или поведения в сгенерированном выводе. В данной статье мы представляем Activation Transport (AcT), общую концепцию управления активациями, основанную на теории оптимального транспорта, которая обобщает многие предыдущие работы по управлению активациями. AcT не зависит от модальности и обеспечивает тонкое управление поведением модели с незначительной вычислительной нагрузкой, минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в крупных языковых моделях (LLM) и моделях диффузии текста в изображение (T2I). Для LLM мы показываем, что AcT может эффективно смягчать токсичность, индуцировать произвольные концепции и увеличивать их достоверность. В T2I мы показываем, как AcT обеспечивает тонкое управление стилем и отрицанием концепций.
English
The increasing capabilities of large generative models and their ever more
widespread deployment have raised concerns about their reliability, safety, and
potential misuse. To address these issues, recent works have proposed to
control model generation by steering model activations in order to effectively
induce or prevent the emergence of concepts or behaviors in the generated
output. In this paper we introduce Activation Transport (AcT), a general
framework to steer activations guided by optimal transport theory that
generalizes many previous activation-steering works. AcT is modality-agnostic
and provides fine-grained control over the model behavior with negligible
computational overhead, while minimally impacting model abilities. We
experimentally show the effectiveness and versatility of our approach by
addressing key challenges in large language models (LLMs) and text-to-image
diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate
toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is,
we show how AcT enables fine-grained style control and concept negation.Summary
AI-Generated Summary