대규모 언어 모델의 지리공간적 기계론적 해석 가능성
Geospatial Mechanistic Interpretability of Large Language Models
May 6, 2025
저자: Stef De Sabbata, Stefano Mizzaro, Kevin Roitero
cs.AI
초록
대형 언어 모델(LLMs)은 다양한 자연어 처리 작업에서 전례 없는 능력을 보여주고 있습니다. 이들이 텍스트와 코드를 처리하고 생성할 수 있는 능력은 많은 분야에서 보편적으로 사용되게 만들었으며, 지식 기반 및 "추론" 도구로서의 활용은 여전히 활발히 연구되고 있는 분야입니다. 지리학 분야에서는 LLM의 지리적 지식과 공간 추론 능력을 평가하는 데 초점을 맞춘 연구가 점점 증가하고 있습니다. 그러나 이러한 모델의 내부 작동 방식, 특히 지리적 정보를 처리하는 방식에 대해서는 아직 알려진 바가 거의 없습니다.
이 장에서는 지리공간 메커니즘 해석 가능성(geospatial mechanistic interpretability) 연구를 위한 새로운 프레임워크를 제시합니다. 이는 공간 분석을 사용하여 LLM이 지리적 정보를 처리하는 방식을 역공학적으로 연구하는 것입니다. 우리의 목표는 이러한 복잡한 모델이 지리적 정보를 처리하는 동안 생성하는 내부 표현을 더 깊이 이해하는 것입니다. 이를 'LLM이 지리적 정보에 대해 어떻게 생각하는지'라고 표현할 수도 있겠지만, 이러한 표현이 지나친 의인화가 아니라는 전제 하에서 말입니다.
먼저, LLM의 내부 구조를 밝히기 위한 프로빙(probing)의 사용을 개괄합니다. 그런 다음 메커니즘 해석 가능성 분야를 소개하며, 중첩 가설(superposition hypothesis)과 희소 오토인코더(sparse autoencoders)가 LLM의 다의적(polysemantic) 내부 표현을 더 해석 가능한 단의적(monosemantic) 특성으로 분리하는 데 어떤 역할을 하는지 논의합니다. 우리의 실험에서는 공간 자기상관(spatial autocorrelation)을 사용하여 지명에 대해 얻은 특성이 지리적 위치와 관련된 공간 패턴을 보여주며, 이를 통해 지리공간적으로 해석할 수 있음을 보여줍니다. 이는 이러한 모델이 지리적 정보를 처리하는 방식에 대한 통찰을 제공합니다. 마지막으로, 우리의 프레임워크가 지리학 분야에서 파운데이션 모델(foundation models)의 연구와 사용을 어떻게 형성할 수 있는지 논의합니다.
English
Large Language Models (LLMs) have demonstrated unprecedented capabilities
across various natural language processing tasks. Their ability to process and
generate viable text and code has made them ubiquitous in many fields, while
their deployment as knowledge bases and "reasoning" tools remains an area of
ongoing research. In geography, a growing body of literature has been focusing
on evaluating LLMs' geographical knowledge and their ability to perform spatial
reasoning. However, very little is still known about the internal functioning
of these models, especially about how they process geographical information.
In this chapter, we establish a novel framework for the study of geospatial
mechanistic interpretability - using spatial analysis to reverse engineer how
LLMs handle geographical information. Our aim is to advance our understanding
of the internal representations that these complex models generate while
processing geographical information - what one might call "how LLMs think about
geographic information" if such phrasing was not an undue anthropomorphism.
We first outline the use of probing in revealing internal structures within
LLMs. We then introduce the field of mechanistic interpretability, discussing
the superposition hypothesis and the role of sparse autoencoders in
disentangling polysemantic internal representations of LLMs into more
interpretable, monosemantic features. In our experiments, we use spatial
autocorrelation to show how features obtained for placenames display spatial
patterns related to their geographic location and can thus be interpreted
geospatially, providing insights into how these models process geographical
information. We conclude by discussing how our framework can help shape the
study and use of foundation models in geography.Summary
AI-Generated Summary