Геометрическое описание управления активациями посредством разложения на угол и норму

Аннотация

Линейное управление активацией приобрело популярность как простой и эмпирически эффективный способ контроля поведения языковых моделей. В последнее время были предложены сферические парадигмы управления, направленные на преодоление ограничений аддитивных вмешательств, что часто мотивируется предположением, что норма скрытых состояний не несет информации, связанной с концептами. В данной работе мы пересматриваем это предположение с помощью контролируемого эмпирического исследования, предназначенного для разграничения ролей угловых и радиальных компонентов. Мы показываем, что методы управления различаются в основном тем, как они связывают два геометрических эффекта: изменение углового согласования токена с направлением концепта и изменение нормы его скрытого состояния. На примере семи языковых моделей мы обнаруживаем, что концепты представлены преимущественно в угловой структуре, что подтверждает мотивацию сферических методов, однако норма остается важной для стабильности и последующих эффектов управления. Наши результаты объясняют, почему вмешательства с одинаковым эффектом на уровне концептов могут вести себя по-разному, и предполагают, что управление активацией должно параметризоваться интерпретируемыми угловыми и радиальными компонентами вмешательства, а не единым аддитивным коэффициентом, запутывающим эти два эффекта.

English

Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.