Een geometrische beschouwing van activatiesturing via hoek-norm decompositie

Samenvatting

Lineaire activatiesturing is populair geworden als een eenvoudige en empirisch effectieve manier om het gedrag van taalmodellen te beheersen. Meer recent zijn er sferische sturingsparadigma's voorgesteld om beperkingen van additieve interventies aan te pakken, vaak gemotiveerd door de aanname dat de norm van verborgen toestanden geen concept-relevante informatie bevat. In dit werk herzien we deze aanname door middel van een gecontroleerde empirische studie die is ontworpen om de rollen van hoek- en radiale componenten te ontwarren. We laten zien dat sturingsmethoden voornamelijk verschillen in hoe ze twee geometrische effecten koppelen: het veranderen van de hoekuitlijning van een token met een conceptrichting en het veranderen van de norm van de verborgen toestand. Over zeven taalmodellen heen vinden we dat concepten voornamelijk worden vertegenwoordigd in hoekstructuur, wat de motivatie voor sferische methoden ondersteunt, maar dat norm belangrijk blijft voor de stabiliteit en downstream-effecten van sturing. Onze resultaten verklaren waarom interventies met vergelijkbare effecten op conceptniveau zich anders kunnen gedragen, en suggereren dat activatiesturing moet worden geparametriseerd door interpreteerbare hoek- en radiale componenten van de interventie, in plaats van door een enkele additieve coëfficiënt die deze twee effecten verstrengelt.

English

Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.