ChatPaper.aiChatPaper

Controlando Modelos de Lenguaje y de Difusión mediante el Transporte de Activaciones

Controlling Language and Diffusion Models by Transporting Activations

October 30, 2024
Autores: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI

Resumen

Las crecientes capacidades de los grandes modelos generativos y su cada vez más amplia implementación han suscitado preocupaciones sobre su fiabilidad, seguridad y posible uso indebido. Para abordar estos problemas, trabajos recientes han propuesto controlar la generación de modelos dirigiendo las activaciones del modelo para inducir o prevenir de manera efectiva la aparición de conceptos o comportamientos en la salida generada. En este documento presentamos Transporte de Activación (AcT), un marco general para dirigir activaciones guiado por la teoría del transporte óptimo que generaliza muchos trabajos previos de dirección de activaciones. AcT es agnóstico a la modalidad y proporciona un control detallado sobre el comportamiento del modelo con una sobrecarga computacional insignificante, al tiempo que afecta mínimamente las capacidades del modelo. Demostramos experimentalmente la efectividad y versatilidad de nuestro enfoque al abordar desafíos clave en grandes modelos de lenguaje (LLMs) y modelos de difusión de texto a imagen (T2Is). Para LLMs, mostramos que AcT puede mitigar efectivamente la toxicidad, inducir conceptos arbitrarios y aumentar su veracidad. En T2Is, demostramos cómo AcT permite un control detallado del estilo y la negación de conceptos.
English
The increasing capabilities of large generative models and their ever more widespread deployment have raised concerns about their reliability, safety, and potential misuse. To address these issues, recent works have proposed to control model generation by steering model activations in order to effectively induce or prevent the emergence of concepts or behaviors in the generated output. In this paper we introduce Activation Transport (AcT), a general framework to steer activations guided by optimal transport theory that generalizes many previous activation-steering works. AcT is modality-agnostic and provides fine-grained control over the model behavior with negligible computational overhead, while minimally impacting model abilities. We experimentally show the effectiveness and versatility of our approach by addressing key challenges in large language models (LLMs) and text-to-image diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is, we show how AcT enables fine-grained style control and concept negation.
PDF182November 13, 2024