Steer2Edit: от управления активациями к редактированию на уровне компонентов

Аннотация

Методы управления поведением больших языковых моделей основаны на выявлении семантических направлений в скрытых представлениях, однако обычно реализуются через интервенции активаций во время вывода, которые применяют фиксированную глобальную модификацию внутренних состояний модели. Несмотря на эффективность, такие интервенции часто приводят к неблагоприятному компромиссу между атрибутами и полезностью при сильном контроле, поскольку игнорируют тот факт, что многие поведенческие аспекты регулируются малыми и гетерогенными подмножествами компонентов модели. Мы предлагаем Steer2Edit — теоретически обоснованную бестренинговую框架, преобразующую векторы управления из сигналов контроля во время вывода в диагностические сигналы для редактирования весов ранга 1 на уровне компонентов. Вместо равномерного внедрения направления управления во время генерации Steer2Edit избирательно перераспределяет поведенческое влияние на отдельные головы внимания и MLP-нейроны, создавая интерпретируемые правки, которые сохраняют стандартный прямой проход и остаются совместимыми с оптимизированным параллельным выводом. В задачах безопасности, снижения галлюцинаций и эффективности рассуждений Steer2Edit последовательно достигает более благоприятного баланса между атрибутами и полезностью: при сопоставимой итоговой производительности метод улучшает безопасность до 17.2%, повышает правдивость на 9.8% и сокращает длину рассуждений в среднем на 12.2%. В целом, Steer2Edit создает принципиальный мост между управлением представлениями и редактированием весов, трансформируя сигналы управления в интерпретируемые бестренинговые обновления параметров.

English

Steering methods influence Large Language Model behavior by identifying semantic directions in hidden representations, but are typically realized through inference-time activation interventions that apply a fixed, global modification to the model's internal states. While effective, such interventions often induce unfavorable attribute-utility trade-offs under strong control, as they ignore the fact that many behaviors are governed by a small and heterogeneous subset of model components. We propose Steer2Edit, a theoretically grounded, training-free framework that transforms steering vectors from inference-time control signals into diagnostic signals for component-level rank-1 weight editing. Instead of uniformly injecting a steering direction during generation, Steer2Edit selectively redistributes behavioral influence across individual attention heads and MLP neurons, yielding interpretable edits that preserve the standard forward pass and remain compatible with optimized parallel inference. Across safety alignment, hallucination mitigation, and reasoning efficiency, Steer2Edit consistently achieves more favorable attribute-utility trade-offs: at matched downstream performance, it improves safety by up to 17.2%, increases truthfulness by 9.8%, and reduces reasoning length by 12.2% on average. Overall, Steer2Edit provides a principled bridge between representation steering and weight editing by translating steering signals into interpretable, training-free parameter updates.

Steer2Edit: от управления активациями к редактированию на уровне компонентов

Steer2Edit: From Activation Steering to Component-Level Editing

Аннотация

Support