ChatPaper.aiChatPaper

지시에서 영역으로: 언어 모델 활성화의 국소 기하학적 구조를 통한 분해

From Directions to Regions: Decomposing Activations in Language Models via Local Geometry

February 2, 2026
저자: Or Shafran, Shaked Ronen, Omri Fahn, Shauli Ravfogel, Atticus Geiger, Mor Geva
cs.AI

초록

언어 모델의 활성화 분해 방법은 개념이 활성화 공간에서 어떻게 구현되는지에 대한 기하학적 가정과 밀접하게 연관되어 있습니다. 기존 접근법은 선형 분리 가능성을 암묵적으로 가정한 개별적인 전역 방향을 탐색하는데, 이는 비선형 또는 다차원 구조를 가진 개념을 간과합니다. 본 연구에서는 혼합 인자 분석기(MFA)를 확장 가능한 비지도 대안으로 활용하여 활성화 공간을 지역적 공분산 구조를 가진 가우시안 영역들의 집합으로 모델링합니다. MFA는 활성화를 두 가지 구성적 기하학적 객체로 분해합니다: 활성화 공간 내 영역의 중심점과 중심점으로부터의 지역적 변동입니다. 우리는 Llama-3.1-8B와 Gemma-2-2B에 대해 대규모 MFA를 학습시키고, 이들이 활성화 공간에서 복잡한 비선형 구조를 포착함을 보여줍니다. 더 나아가, 지역화 및 조종 벤치마크 평가에서 MFA가 비지도 기준 방법을 능가하고, 지도 지역화 방법과 경쟁력을 가지며, 희소 오토인코더보다 종종 더 강력한 조종 성능을 달성함을 보입니다. 종합하면, 우리의 연구 결과는 부분공간을 통해 표현되는 지역적 기하학을 고립된 방향이 포착하지 못하는 복잡한 구조를 설명하는, 확장 가능한 개념 발견 및 모델 제어를 위한 유망한 분석 단위로 위치시킵니다.
English
Activation decomposition methods in language models are tightly coupled to geometric assumptions on how concepts are realized in activation space. Existing approaches search for individual global directions, implicitly assuming linear separability, which overlooks concepts with nonlinear or multi-dimensional structure. In this work, we leverage Mixture of Factor Analyzers (MFA) as a scalable, unsupervised alternative that models the activation space as a collection of Gaussian regions with their local covariance structure. MFA decomposes activations into two compositional geometric objects: the region's centroid in activation space, and the local variation from the centroid. We train large-scale MFAs for Llama-3.1-8B and Gemma-2-2B, and show they capture complex, nonlinear structures in activation space. Moreover, evaluations on localization and steering benchmarks show that MFA outperforms unsupervised baselines, is competitive with supervised localization methods, and often achieves stronger steering performance than sparse autoencoders. Together, our findings position local geometry, expressed through subspaces, as a promising unit of analysis for scalable concept discovery and model control, accounting for complex structures that isolated directions fail to capture.
PDF31February 12, 2026