方向性から領域へ:言語モデルの活性化を局所幾何学に基づいて分解する
From Directions to Regions: Decomposing Activations in Language Models via Local Geometry
February 2, 2026
著者: Or Shafran, Shaked Ronen, Omri Fahn, Shauli Ravfogel, Atticus Geiger, Mor Geva
cs.AI
要旨
言語モデルにおける活性化分解手法は、概念が活性化空間においてどのように実現されるかという幾何学的仮説と密接に結びついている。既存の手法は個々の大域的方向性を探索し、線形分離可能性を暗黙に仮定するが、これは非線形または多次元構造を持つ概念を見落としている。本研究では、因子分析混合モデル(MFA)を、活性化空間を局所的な共分散構造を持つガウス領域の集合としてモデル化するスケーラブルで教師なしの代替手法として活用する。MFAは活性化を2つの合成的な幾何学的対象に分解する:活性化空間内の領域の重心と、重心からの局所的変動である。我々はLlama-3.1-8BおよびGemma-2-2Bに対して大規模なMFAを学習し、それらが活性化空間内の複雑な非線形構造を捕捉することを示す。さらに、局在化とステアリングのベンチマークによる評価では、MFAが教師なしベースラインを上回り、教師あり局在化手法と競合する性能を示し、しばしばスパースオートエンコーダーよりも強力なステアリング性能を達成する。総合的に、我々の知見は、部分空間を通じて表現される局所幾何学を、単離された方向性では捕捉できない複雑な構造を考慮しつつ、スケーラブルな概念発見とモデル制御のための有望な分析単位として位置づける。
English
Activation decomposition methods in language models are tightly coupled to geometric assumptions on how concepts are realized in activation space. Existing approaches search for individual global directions, implicitly assuming linear separability, which overlooks concepts with nonlinear or multi-dimensional structure. In this work, we leverage Mixture of Factor Analyzers (MFA) as a scalable, unsupervised alternative that models the activation space as a collection of Gaussian regions with their local covariance structure. MFA decomposes activations into two compositional geometric objects: the region's centroid in activation space, and the local variation from the centroid. We train large-scale MFAs for Llama-3.1-8B and Gemma-2-2B, and show they capture complex, nonlinear structures in activation space. Moreover, evaluations on localization and steering benchmarks show that MFA outperforms unsupervised baselines, is competitive with supervised localization methods, and often achieves stronger steering performance than sparse autoencoders. Together, our findings position local geometry, expressed through subspaces, as a promising unit of analysis for scalable concept discovery and model control, accounting for complex structures that isolated directions fail to capture.