Multi-eigenschap Sturing van Grote Taalmodellen met Dynamische Activatiecompositie
Multi-property Steering of Large Language Models with Dynamic Activation Composition
June 25, 2024
Auteurs: Daniel Scalena, Gabriele Sarti, Malvina Nissim
cs.AI
Samenvatting
Activatiesturingmethoden zijn effectief gebleken in het conditioneren van taalmodelgeneratie door additief in te grijpen op de tussenliggende representaties van modellen. De evaluatie van deze technieken is tot nu toe echter beperkt gebleven tot enkele conditioneringseigenschappen en synthetische omgevingen. In dit werk voeren we een uitgebreide evaluatie uit van verschillende activatiesturingstrategieën, waarbij we de eigenschapsafhankelijke aard van optimale parameters benadrukken om een robuust effect gedurende de generatie te waarborgen. Om dit probleem aan te pakken, stellen we Dynamische Activatiecompositie voor, een informatie-theoretische benadering om de stuurintensiteit van een of meer eigenschappen gedurende de generatie te moduleren. Onze experimenten met multi-eigenschapssturing tonen aan dat onze methode met succes een hoge conditionering behoudt terwijl de impact van conditionering op de generatievloeiendheid wordt geminimaliseerd.
English
Activation steering methods were shown to be effective in conditioning
language model generation by additively intervening over models' intermediate
representations. However, the evaluation of these techniques has so far been
limited to single conditioning properties and synthetic settings. In this work,
we conduct a comprehensive evaluation of various activation steering
strategies, highlighting the property-dependent nature of optimal parameters to
ensure a robust effect throughout generation. To address this issue, we propose
Dynamic Activation Composition, an information-theoretic approach to modulate
the steering intensity of one or more properties throughout generation. Our
experiments on multi-property steering show that our method successfully
maintains high conditioning while minimizing the impact of conditioning on
generation fluency.