ChatPaper.aiChatPaper

Multi-Property-Steuerung großer Sprachmodelle mit dynamischer Aktivierungszusammensetzung

Multi-property Steering of Large Language Models with Dynamic Activation Composition

June 25, 2024
Autoren: Daniel Scalena, Gabriele Sarti, Malvina Nissim
cs.AI

Zusammenfassung

Aktivierungslenkungsmethoden haben sich als wirksam erwiesen, um die Generierung von Sprachmodellen durch additive Eingriffe in die Zwischenrepräsentationen der Modelle zu konditionieren. Bisher war die Bewertung dieser Techniken jedoch auf einzelne Konditionierungseigenschaften und synthetische Einstellungen beschränkt. In dieser Arbeit führen wir eine umfassende Bewertung verschiedener Aktivierungslenkungsstrategien durch, wobei die eigenschaftsabhängige Natur optimaler Parameter hervorgehoben wird, um einen robusten Effekt während der Generierung sicherzustellen. Um dieses Problem anzugehen, schlagen wir die Dynamische Aktivierungszusammensetzung vor, einen informationstheoretischen Ansatz zur Modulation der Lenkungsintensität einer oder mehrerer Eigenschaften während der Generierung. Unsere Experimente zur Mehrfacheigenschaftslenkung zeigen, dass unsere Methode erfolgreich eine hohe Konditionierung aufrechterhält, während sie den Einfluss der Konditionierung auf die Generierungsflüssigkeit minimiert.
English
Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models' intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.

Summary

AI-Generated Summary

PDF41November 29, 2024