Dirección de Múltiples Propiedades en Modelos de Lenguaje de Gran Escala con Composición Dinámica de Activaciones
Multi-property Steering of Large Language Models with Dynamic Activation Composition
June 25, 2024
Autores: Daniel Scalena, Gabriele Sarti, Malvina Nissim
cs.AI
Resumen
Se ha demostrado que los métodos de direccionamiento de activaciones son efectivos para condicionar la generación de modelos de lenguaje mediante la intervención aditiva sobre las representaciones intermedias de los modelos. Sin embargo, la evaluación de estas técnicas hasta ahora se ha limitado a propiedades de condicionamiento individuales y entornos sintéticos. En este trabajo, realizamos una evaluación exhaustiva de diversas estrategias de direccionamiento de activaciones, destacando la naturaleza dependiente de la propiedad de los parámetros óptimos para garantizar un efecto robusto durante la generación. Para abordar este problema, proponemos la Composición Dinámica de Activaciones, un enfoque basado en la teoría de la información para modular la intensidad del direccionamiento de una o más propiedades durante la generación. Nuestros experimentos sobre el direccionamiento de múltiples propiedades muestran que nuestro método mantiene exitosamente un alto nivel de condicionamiento mientras minimiza el impacto del condicionamiento en la fluidez de la generación.
English
Activation steering methods were shown to be effective in conditioning
language model generation by additively intervening over models' intermediate
representations. However, the evaluation of these techniques has so far been
limited to single conditioning properties and synthetic settings. In this work,
we conduct a comprehensive evaluation of various activation steering
strategies, highlighting the property-dependent nature of optimal parameters to
ensure a robust effect throughout generation. To address this issue, we propose
Dynamic Activation Composition, an information-theoretic approach to modulate
the steering intensity of one or more properties throughout generation. Our
experiments on multi-property steering show that our method successfully
maintains high conditioning while minimizing the impact of conditioning on
generation fluency.Summary
AI-Generated Summary