Pilotage multi-propriétés des grands modèles de langage par composition dynamique d'activation

papers.abstract

Les méthodes de pilotage par activation se sont révélées efficaces pour conditionner la génération de modèles de langage en intervenant de manière additive sur les représentations intermédiaires des modèles. Cependant, l'évaluation de ces techniques s'est jusqu'à présent limitée à des propriétés de conditionnement uniques et à des contextes synthétiques. Dans ce travail, nous menons une évaluation approfondie de diverses stratégies de pilotage par activation, mettant en lumière la nature dépendante des propriétés des paramètres optimaux pour garantir un effet robuste tout au long de la génération. Pour résoudre ce problème, nous proposons la Composition Dynamique d'Activation, une approche informationnelle permettant de moduler l'intensité du pilotage d'une ou plusieurs propriétés durant la génération. Nos expériences sur le pilotage multi-propriétés montrent que notre méthode maintient avec succès un conditionnement élevé tout en minimisant l'impact du conditionnement sur la fluidité de la génération.

English

Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models' intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.

Pilotage multi-propriétés des grands modèles de langage par composition dynamique d'activation

Multi-property Steering of Large Language Models with Dynamic Activation Composition

papers.abstract

Support