Direção de Múltiplas Propriedades de Modelos de Linguagem Grandes com Ativação Dinâmica de Composição
Multi-property Steering of Large Language Models with Dynamic Activation Composition
June 25, 2024
Autores: Daniel Scalena, Gabriele Sarti, Malvina Nissim
cs.AI
Resumo
Métodos de direcionamento de ativação mostraram ser eficazes na condicionamento da geração de modelos de linguagem intervindo de forma aditiva sobre as representações intermediárias dos modelos. No entanto, a avaliação dessas técnicas até o momento tem sido limitada a propriedades de condicionamento únicas e configurações sintéticas. Neste trabalho, realizamos uma avaliação abrangente de várias estratégias de direcionamento de ativação, destacando a natureza dependente das propriedades ótimas dos parâmetros para garantir um efeito robusto ao longo da geração. Para abordar essa questão, propomos a Composição Dinâmica de Ativação, uma abordagem informacional para modular a intensidade de direcionamento de uma ou mais propriedades ao longo da geração. Nossos experimentos sobre direcionamento de múltiplas propriedades mostram que nosso método mantém com sucesso um alto condicionamento, ao mesmo tempo que minimiza o impacto do condicionamento na fluidez da geração.
English
Activation steering methods were shown to be effective in conditioning
language model generation by additively intervening over models' intermediate
representations. However, the evaluation of these techniques has so far been
limited to single conditioning properties and synthetic settings. In this work,
we conduct a comprehensive evaluation of various activation steering
strategies, highlighting the property-dependent nature of optimal parameters to
ensure a robust effect throughout generation. To address this issue, we propose
Dynamic Activation Composition, an information-theoretic approach to modulate
the steering intensity of one or more properties throughout generation. Our
experiments on multi-property steering show that our method successfully
maintains high conditioning while minimizing the impact of conditioning on
generation fluency.