Uma Explicação Geométrica do Direcionamento de Ativações por meio da Decomposição Ângulo-Norma

Resumo

O direcionamento linear de ativação ganhou popularidade como uma forma simples e empiricamente eficaz de controlar o comportamento de modelos de linguagem. Mais recentemente, paradigmas de direcionamento esférico foram propostos para lidar com limitações das intervenções aditivas, frequentemente motivados pela suposição de que a norma do estado oculto não carrega informação relevante ao conceito. Neste trabalho, revisitamos essa suposição por meio de um estudo empírico controlado projetado para separar os papéis dos componentes angulares e radiais. Mostramos que os métodos de direcionamento diferem principalmente em como acoplam dois efeitos geométricos: alterar o alinhamento angular de um token com uma direção de conceito e alterar sua norma de estado oculto. Em sete modelos de linguagem, descobrimos que os conceitos são representados principalmente na estrutura angular, apoiando a motivação para métodos esféricos, mas que a norma permanece importante para a estabilidade e os efeitos posteriores do direcionamento. Nossos resultados explicam por que intervenções com efeitos semelhantes no nível do conceito podem se comportar de maneira diferente, e sugerem que o direcionamento de ativação deve ser parametrizado por componentes angulares e radiais interpretáveis da intervenção, em vez de um único coeficiente aditivo que entrelaça esses dois efeitos.

English

Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.