ChatPaper.aiChatPaper

動的活性化合成による大規模言語モデルのマルチプロパティ制御

Multi-property Steering of Large Language Models with Dynamic Activation Composition

June 25, 2024
著者: Daniel Scalena, Gabriele Sarti, Malvina Nissim
cs.AI

要旨

活性化制御手法は、言語モデルの中間表現に対して加法的な介入を行うことで、生成を条件付けるのに有効であることが示されてきました。しかし、これまでの評価は単一の条件付け特性と人工的な設定に限定されていました。本研究では、さまざまな活性化制御戦略を包括的に評価し、生成全体にわたって堅牢な効果を確保するための最適パラメータが特性に依存することを明らかにします。この問題に対処するため、我々はDynamic Activation Compositionを提案します。これは、情報理論に基づくアプローチであり、生成全体にわたって1つ以上の特性の制御強度を調整します。複数特性の制御に関する実験では、本手法が高い条件付けを維持しつつ、生成の流暢性への影響を最小限に抑えることに成功していることが示されました。
English
Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models' intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.

Summary

AI-Generated Summary

PDF41November 29, 2024