Controllo Multi-proprietà dei Modelli Linguistici di Grande Scala con Composizione Dinamica delle Attivazioni
Multi-property Steering of Large Language Models with Dynamic Activation Composition
June 25, 2024
Autori: Daniel Scalena, Gabriele Sarti, Malvina Nissim
cs.AI
Abstract
I metodi di steering delle attivazioni si sono dimostrati efficaci nel condizionare la generazione dei modelli linguistici intervenendo in modo additivo sulle rappresentazioni intermedie dei modelli. Tuttavia, la valutazione di queste tecniche è stata finora limitata a singole proprietà di condizionamento e contesti sintetici. In questo lavoro, conduciamo una valutazione completa di varie strategie di steering delle attivazioni, evidenziando la natura dipendente dalla proprietà dei parametri ottimali per garantire un effetto robusto durante la generazione. Per affrontare questo problema, proponiamo la Composizione Dinamica delle Attivazioni, un approccio basato sulla teoria dell'informazione per modulare l'intensità dello steering di una o più proprietà durante la generazione. I nostri esperimenti sullo steering multi-proprietà dimostrano che il nostro metodo mantiene con successo un elevato condizionamento minimizzando l'impatto del condizionamento sulla fluidità della generazione.
English
Activation steering methods were shown to be effective in conditioning
language model generation by additively intervening over models' intermediate
representations. However, the evaluation of these techniques has so far been
limited to single conditioning properties and synthetic settings. In this work,
we conduct a comprehensive evaluation of various activation steering
strategies, highlighting the property-dependent nature of optimal parameters to
ensure a robust effect throughout generation. To address this issue, we propose
Dynamic Activation Composition, an information-theoretic approach to modulate
the steering intensity of one or more properties throughout generation. Our
experiments on multi-property steering show that our method successfully
maintains high conditioning while minimizing the impact of conditioning on
generation fluency.