Direção de Múltiplas Propriedades de Modelos de Linguagem Grandes com Ativação Dinâmica de Composição

Resumo

Métodos de direcionamento de ativação mostraram ser eficazes na condicionamento da geração de modelos de linguagem intervindo de forma aditiva sobre as representações intermediárias dos modelos. No entanto, a avaliação dessas técnicas até o momento tem sido limitada a propriedades de condicionamento únicas e configurações sintéticas. Neste trabalho, realizamos uma avaliação abrangente de várias estratégias de direcionamento de ativação, destacando a natureza dependente das propriedades ótimas dos parâmetros para garantir um efeito robusto ao longo da geração. Para abordar essa questão, propomos a Composição Dinâmica de Ativação, uma abordagem informacional para modular a intensidade de direcionamento de uma ou mais propriedades ao longo da geração. Nossos experimentos sobre direcionamento de múltiplas propriedades mostram que nosso método mantém com sucesso um alto condicionamento, ao mesmo tempo que minimiza o impacto do condicionamento na fluidez da geração.

English

Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models' intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.

Direção de Múltiplas Propriedades de Modelos de Linguagem Grandes com Ativação Dinâmica de Composição

Multi-property Steering of Large Language Models with Dynamic Activation Composition

Resumo

Support