ChatPaper.aiChatPaper

Contrôle d'orientation : Évaluation holistique du pilotage de l'alignement dans les modèles de langage de grande taille

SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

September 16, 2025
papers.authors: Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang
cs.AI

papers.abstract

Nous présentons SteeringControl, un benchmark pour évaluer les méthodes de pilotage des représentations à travers des objectifs fondamentaux d'alignement—biais, génération nuisible et hallucination—ainsi que leurs effets sur des comportements secondaires tels que la flagornerie et la moralité de bon sens. Alors que les travaux antérieurs sur l'alignement mettent souvent en avant la véracité ou la capacité de raisonnement pour démontrer les effets secondaires du pilotage des représentations, nous constatons qu'il existe de nombreux compromis inexplorés qui n'ont pas encore été compris de manière systématique. Nous avons rassemblé un ensemble de données de comportements primaires et secondaires liés à la sécurité pour évaluer l'efficacité du pilotage et l'enchevêtrement comportemental, en nous concentrant sur cinq méthodes de pilotage populaires. Pour ce faire, nous avons conçu un cadre de pilotage modulaire basé sur des composants uniques qui servent de blocs de construction pour de nombreuses méthodes existantes. Nos résultats sur Qwen-2.5-7B et Llama-3.1-8B montrent que la performance forte en pilotage dépend de la combinaison spécifique de la méthode de pilotage, du modèle et du comportement ciblé, et qu'un enchevêtrement conceptuel sévère peut résulter de mauvaises combinaisons de ces trois éléments également. Nous publions notre code ici : https://github.com/wang-research-lab/SteeringControl.git.
English
We introduce SteeringControl, a benchmark for evaluating representation steering methods across core alignment objectives--bias, harmful generation, and hallucination--and their effects on secondary behaviors such as sycophancy and commonsense morality. While prior alignment work often highlights truthfulness or reasoning ability to demonstrate the side effects of representation steering, we find there are many unexplored tradeoffs not yet understood in a systematic way. We collect a dataset of safety-relevant primary and secondary behaviors to evaluate steering effectiveness and behavioral entanglement centered around five popular steering methods. To enable this, we craft a modular steering framework based on unique components that serve as the building blocks of many existing methods. Our results on Qwen-2.5-7B and Llama-3.1-8B find that strong steering performance is dependent on the specific combination of steering method, model, and targeted behavior, and that severe concept entanglement can result from poor combinations of these three as well. We release our code here: https://github.com/wang-research-lab/SteeringControl.git.
PDF31September 18, 2025