ChatPaper.aiChatPaper

Многопараметрическое управление большими языковыми моделями с динамической активацией композиции

Multi-property Steering of Large Language Models with Dynamic Activation Composition

June 25, 2024
Авторы: Daniel Scalena, Gabriele Sarti, Malvina Nissim
cs.AI

Аннотация

Методы управления активацией показали свою эффективность в условионировании генерации языковых моделей путем аддитивного вмешательства в промежуточные представления моделей. Однако оценка этих техник до сих пор была ограничена одиночными свойствами условий и синтетическими сценариями. В данной работе мы проводим всестороннюю оценку различных стратегий управления активацией, выделяя зависимость оптимальных параметров от свойств условий для обеспечения устойчивого эффекта на протяжении генерации. Для решения этой проблемы мы предлагаем Динамическую Композицию Активации, информационно-теоретический подход к модуляции интенсивности управления одним или несколькими свойствами во время генерации. Наши эксперименты по многопараметрическому управлению показывают, что наш метод успешно поддерживает высокое условионирование, минимизируя влияние условий на плавность генерации.
English
Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models' intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.

Summary

AI-Generated Summary

PDF41November 29, 2024