Eine geometrische Betrachtung der Aktivierungssteuerung mittels Winkel-Norm-Zerlegung

Zusammenfassung

Lineare Aktivierungssteuerung hat sich als einfache und empirisch wirksame Methode zur Kontrolle des Verhaltens von Sprachmodellen etabliert. In jüngerer Zeit wurden sphärische Steuerungsparadigmen vorgeschlagen, um die Einschränkungen additiver Interventionen zu adressieren, oft motiviert durch die Annahme, dass die Norm der verborgenen Zustände keine konzeptrelevanten Informationen trägt. In dieser Arbeit überprüfen wir diese Annahme anhand einer kontrollierten empirischen Studie, die darauf ausgelegt ist, die Rollen der Winkel- und Radialkomponenten zu entflechten. Wir zeigen, dass sich Steuerungsmethoden hauptsächlich darin unterscheiden, wie sie zwei geometrische Effekte koppeln: die Veränderung der Winkelausrichtung eines Tokens mit einer Konzeptrichtung und die Veränderung seiner Norm im verborgenen Zustand. Über sieben Sprachmodelle hinweg stellen wir fest, dass Konzepte primär in der Winkelstruktur repräsentiert werden, was die Motivation für sphärische Methoden stützt, dass die Norm jedoch für die Stabilität und die nachgelagerten Effekte der Steuerung weiterhin wichtig ist. Unsere Ergebnisse erklären, warum Interventionen mit ähnlichen konzeptuellen Effekten sich unterschiedlich verhalten können, und legen nahe, dass Aktivierungssteuerung durch interpretierbare Winkel- und Radialkomponenten der Intervention parametrisiert werden sollte, anstatt durch einen einzelnen additiven Koeffizienten, der diese beiden Effekte vermischt.

English

Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.