ChatPaper.aiChatPaper

다중 속성 제어를 위한 동적 활성화 조합 기반 대규모 언어 모델 스티어링

Multi-property Steering of Large Language Models with Dynamic Activation Composition

June 25, 2024
저자: Daniel Scalena, Gabriele Sarti, Malvina Nissim
cs.AI

초록

활성화 조정(activation steering) 방법들은 언어 모델의 중간 표현에 가산적 개입을 통해 생성 과정을 조건화하는 데 효과적인 것으로 입증되었습니다. 그러나 이러한 기술에 대한 평가는 지금까지 단일 조건 속성과 인위적인 설정에 국한되어 있었습니다. 본 연구에서는 다양한 활성화 조정 전략을 포괄적으로 평가하며, 생성 전반에 걸쳐 강력한 효과를 보장하기 위한 최적 매개변수의 속성 의존적 특성을 강조합니다. 이 문제를 해결하기 위해, 우리는 정보 이론적 접근법인 동적 활성화 조합(Dynamic Activation Composition)을 제안합니다. 이 방법은 생성 과정 전반에 걸쳐 하나 이상의 속성에 대한 조정 강도를 조절합니다. 다중 속성 조정에 대한 실험 결과, 우리의 방법이 높은 조건화 수준을 유지하면서도 생성의 유창성에 미치는 영향을 최소화하는 데 성공적임을 보여줍니다.
English
Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models' intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.

Summary

AI-Generated Summary

PDF41November 29, 2024