Una Explicación Geométrica de la Dirección de Activaciones mediante Descomposición en Ángulo y Norma

Resumen

La dirección lineal de activaciones ha ganado popularidad como un método simple y empíricamente efectivo para controlar el comportamiento de los modelos de lenguaje. Más recientemente, se han propuesto paradigmas de dirección esférica para abordar las limitaciones de las intervenciones aditivas, a menudo motivados por el supuesto de que la norma del estado oculto no transporta información relevante para el concepto. En este trabajo, revisitamos este supuesto mediante un estudio empírico controlado diseñado para desentrañar los roles de los componentes angulares y radiales. Mostramos que los métodos de dirección difieren principalmente en cómo acoplan dos efectos geométricos: cambiar la alineación angular de un token con una dirección conceptual y modificar su norma del estado oculto. En siete modelos de lenguaje, encontramos que los conceptos se representan principalmente en la estructura angular, lo que respalda la motivación de los métodos esféricos, pero que la norma sigue siendo importante para la estabilidad y los efectos posteriores de la dirección. Nuestros resultados explican por qué intervenciones con efectos similares a nivel conceptual pueden comportarse de manera diferente, y sugieren que la dirección de activaciones debería parametrizarse mediante componentes angulares y radiales interpretables de la intervención, en lugar de un único coeficiente aditivo que entrelace estos dos efectos.

English

Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.