Controllo Multi-proprietà dei Modelli Linguistici di Grande Scala con Composizione Dinamica delle Attivazioni

Abstract

I metodi di steering delle attivazioni si sono dimostrati efficaci nel condizionare la generazione dei modelli linguistici intervenendo in modo additivo sulle rappresentazioni intermedie dei modelli. Tuttavia, la valutazione di queste tecniche è stata finora limitata a singole proprietà di condizionamento e contesti sintetici. In questo lavoro, conduciamo una valutazione completa di varie strategie di steering delle attivazioni, evidenziando la natura dipendente dalla proprietà dei parametri ottimali per garantire un effetto robusto durante la generazione. Per affrontare questo problema, proponiamo la Composizione Dinamica delle Attivazioni, un approccio basato sulla teoria dell'informazione per modulare l'intensità dello steering di una o più proprietà durante la generazione. I nostri esperimenti sullo steering multi-proprietà dimostrano che il nostro metodo mantiene con successo un elevato condizionamento minimizzando l'impatto del condizionamento sulla fluidità della generazione.

English

Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models' intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.

Controllo Multi-proprietà dei Modelli Linguistici di Grande Scala con Composizione Dinamica delle Attivazioni

Multi-property Steering of Large Language Models with Dynamic Activation Composition

Abstract

Support