Interpretabilidade Mecanicista Geoespacial de Modelos de Linguagem de Grande Escala
Geospatial Mechanistic Interpretability of Large Language Models
May 6, 2025
Autores: Stef De Sabbata, Stefano Mizzaro, Kevin Roitero
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades sem precedentes em diversas tarefas de processamento de linguagem natural. Sua capacidade de processar e gerar texto e código viáveis os tornou onipresentes em muitos campos, enquanto sua implantação como bases de conhecimento e ferramentas de "raciocínio" continua sendo uma área de pesquisa em andamento. Na geografia, um crescente corpo de literatura tem se concentrado em avaliar o conhecimento geográfico dos LLMs e sua capacidade de realizar raciocínio espacial. No entanto, ainda se sabe muito pouco sobre o funcionamento interno desses modelos, especialmente sobre como eles processam informações geográficas.
Neste capítulo, estabelecemos uma nova estrutura para o estudo da interpretabilidade mecanicista geoespacial - utilizando análise espacial para engenharia reversa de como os LLMs lidam com informações geográficas. Nosso objetivo é avançar nossa compreensão das representações internas que esses modelos complexos geram ao processar informações geográficas - o que se poderia chamar de "como os LLMs pensam sobre informações geográficas", se tal frase não fosse um antropomorfismo indevido.
Primeiro, delineamos o uso de sondagens para revelar estruturas internas dentro dos LLMs. Em seguida, introduzimos o campo da interpretabilidade mecanicista, discutindo a hipótese de superposição e o papel dos autoencoders esparsos na desagregação de representações internas polissêmicas dos LLMs em características mais interpretáveis e monossêmicas. Em nossos experimentos, utilizamos autocorrelação espacial para mostrar como as características obtidas para nomes de lugares exibem padrões espaciais relacionados à sua localização geográfica e, portanto, podem ser interpretadas geoespacialmente, fornecendo insights sobre como esses modelos processam informações geográficas. Concluímos discutindo como nossa estrutura pode ajudar a moldar o estudo e o uso de modelos de base na geografia.
English
Large Language Models (LLMs) have demonstrated unprecedented capabilities
across various natural language processing tasks. Their ability to process and
generate viable text and code has made them ubiquitous in many fields, while
their deployment as knowledge bases and "reasoning" tools remains an area of
ongoing research. In geography, a growing body of literature has been focusing
on evaluating LLMs' geographical knowledge and their ability to perform spatial
reasoning. However, very little is still known about the internal functioning
of these models, especially about how they process geographical information.
In this chapter, we establish a novel framework for the study of geospatial
mechanistic interpretability - using spatial analysis to reverse engineer how
LLMs handle geographical information. Our aim is to advance our understanding
of the internal representations that these complex models generate while
processing geographical information - what one might call "how LLMs think about
geographic information" if such phrasing was not an undue anthropomorphism.
We first outline the use of probing in revealing internal structures within
LLMs. We then introduce the field of mechanistic interpretability, discussing
the superposition hypothesis and the role of sparse autoencoders in
disentangling polysemantic internal representations of LLMs into more
interpretable, monosemantic features. In our experiments, we use spatial
autocorrelation to show how features obtained for placenames display spatial
patterns related to their geographic location and can thus be interpreted
geospatially, providing insights into how these models process geographical
information. We conclude by discussing how our framework can help shape the
study and use of foundation models in geography.