ChatPaper.aiChatPaper

SteeringControl: 대형 언어 모델의 정렬 조정에 대한 종합적 평가

SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

September 16, 2025
저자: Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang
cs.AI

초록

우리는 표현 조정(representation steering) 방법들을 핵심 정렬 목표들—편향성, 유해 생성, 환각—과 이차적 행동들(예: 아첨, 상식적 도덕성)에 미치는 영향을 평가하기 위한 벤치마크인 SteeringControl을 소개합니다. 기존 정렬 연구에서는 주로 진실성이나 추론 능력을 강조하여 표현 조정의 부작용을 보여주었지만, 우리는 체계적으로 이해되지 않은 다양한 트레이드오프들이 존재함을 발견했습니다. 우리는 안전과 관련된 주요 및 이차적 행동들의 데이터셋을 수집하여 다섯 가지 인기 있는 조정 방법을 중심으로 조정 효과와 행동적 얽힘(entanglement)을 평가합니다. 이를 위해, 우리는 기존 방법들의 기본 구성 요소로 작용하는 독특한 컴포넌트들을 기반으로 한 모듈식 조정 프레임워크를 설계했습니다. Qwen-2.5-7B와 Llama-3.1-8B에 대한 실험 결과, 강력한 조정 성능은 조정 방법, 모델, 그리고 목표 행동의 특정 조합에 의존하며, 이 세 가지의 부적절한 조합은 심각한 개념적 얽힘을 초래할 수 있음을 확인했습니다. 우리는 코드를 다음 링크에서 공개합니다: https://github.com/wang-research-lab/SteeringControl.git.
English
We introduce SteeringControl, a benchmark for evaluating representation steering methods across core alignment objectives--bias, harmful generation, and hallucination--and their effects on secondary behaviors such as sycophancy and commonsense morality. While prior alignment work often highlights truthfulness or reasoning ability to demonstrate the side effects of representation steering, we find there are many unexplored tradeoffs not yet understood in a systematic way. We collect a dataset of safety-relevant primary and secondary behaviors to evaluate steering effectiveness and behavioral entanglement centered around five popular steering methods. To enable this, we craft a modular steering framework based on unique components that serve as the building blocks of many existing methods. Our results on Qwen-2.5-7B and Llama-3.1-8B find that strong steering performance is dependent on the specific combination of steering method, model, and targeted behavior, and that severe concept entanglement can result from poor combinations of these three as well. We release our code here: https://github.com/wang-research-lab/SteeringControl.git.
PDF31September 18, 2025