REMA: 대규모 언어 모델 해석을 위한 통합 추론 매니폴드 프레임워크
REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model
September 26, 2025
저자: Bo Li, Guanzhi Deng, Ronghao Chen, Junrong Yue, Shuo Zhang, Qinghua Zhao, Linqi Song, Lijie Wen
cs.AI
초록
대규모 언어 모델(LLMs)이 복잡한 추론을 수행하는 방식과 그 실패 메커니즘을 이해하는 것은 해석 가능성 연구에서의 과제입니다. 이를 측정 가능한 기하학적 분석 관점에서 접근하기 위해, 우리는 '추론 매니폴드(Reasoning Manifold)'라는 개념을 정의합니다. 이는 모든 올바르게 추론된 생성물에 해당하는 내부 표현들로 형성된 잠재적 저차원 기하학적 구조로, 모델이 특정 과제를 성공적으로 해결하기 위해 학습한 효과적인 사고 경로의 구현체로 개념화할 수 있습니다. 이 개념을 바탕으로, 우리는 REMA(Reasoning Manifold Analysis) 프레임워크를 구축하여, 오류와 정확한 추론 샘플에 해당하는 내부 모델 표현들의 공간적 관계를 정량적으로 비교함으로써 실패의 원인을 설명합니다. 구체적으로, REMA는 먼저 각 오류 표현의 기하학적 편차를 정량화하기 위해, 정확한 표현들로 형성된 근사 매니폴드에 대한 k-최근접 이웃 거리를 계산하여 통합된 실패 신호를 제공합니다. 그런 다음, 모델의 계층을 가로지르며 이 편차 지표를 추적하고, 정확한 표현들에서의 내부 변동을 기준으로 비교함으로써 이러한 편차가 처음으로 유의미해지는 분기점을 찾아냅니다. 이를 통해 추론 체인이 어디서 벗어나기 시작하는지를 식별합니다. 다양한 언어 및 멀티모달 모델과 과제에 대한 광범위한 실험을 통해, 우리는 추론 매니폴드의 저차원적 특성과 오류 및 정확한 추론 표현 간의 높은 분리 가능성을 입증했습니다. 또한, REMA 프레임워크가 추론 실패의 원인을 분석하는 데 효과적임을 검증했습니다. 이 연구는 추상적인 추론 실패를 표현들의 측정 가능한 기하학적 편차와 연결함으로써, 블랙박스 모델의 내부 계산 과정에 대한 심층적인 이해와 진단을 위한 새로운 방향을 제시합니다.
English
Understanding how Large Language Models (LLMs) perform complex reasoning and
their failure mechanisms is a challenge in interpretability research. To
provide a measurable geometric analysis perspective, we define the concept of
the Reasoning Manifold, a latent low-dimensional geometric structure formed by
the internal representations corresponding to all correctly reasoned
generations. This structure can be conceptualized as the embodiment of the
effective thinking paths that the model has learned to successfully solve a
given task. Based on this concept, we build REMA, a framework that explains the
origins of failures by quantitatively comparing the spatial relationships of
internal model representations corresponding to both erroneous and correct
reasoning samples. Specifically, REMA first quantifies the geometric deviation
of each erroneous representation by calculating its k-nearest neighbors
distance to the approximated manifold formed by correct representations,
thereby providing a unified failure signal. It then localizes the divergence
points where these deviations first become significant by tracking this
deviation metric across the model's layers and comparing it against a baseline
of internal fluctuations from correct representations, thus identifying where
the reasoning chain begins to go off-track. Our extensive experiments on
diverse language and multimodal models and tasks demonstrate the
low-dimensional nature of the reasoning manifold and the high separability
between erroneous and correct reasoning representations. The results also
validate the effectiveness of the REMA framework in analyzing the origins of
reasoning failures. This research connects abstract reasoning failures to
measurable geometric deviations in representations, providing new avenues for
in-depth understanding and diagnosis of the internal computational processes of
black-box models.