계층적 주파수 태깅 프로브(HFTP): 대규모 언어 모델과 인간 뇌의 구문 구조 표현을 조사하기 위한 통합 접근법
Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain
October 15, 2025
저자: Jingmin An, Yilong Song, Ruolin Yang, Nai Ding, Lingxi Lu, Yuxuan Wang, Wei Wang, Chu Zhuang, Qian Wang, Fang Fang
cs.AI
초록
대형 언어 모델(LLMs)은 인간 수준 또는 그 이상의 언어 능력을 보여주며, 구문 구조를 효과적으로 모델링하지만, 이를 담당하는 구체적인 계산 모듈은 여전히 불분명합니다. 핵심 질문은 LLM의 행동 능력이 인간 뇌와 유사한 메커니즘에서 비롯되는지 여부입니다. 이러한 질문을 해결하기 위해, 우리는 주파수 영역 분석을 활용하여 LLM의 뉴런 단위 구성 요소(예: 개별 다층 퍼셉트론(MLP) 뉴런)와 구문 구조를 인코딩하는 피질 영역(두개 내 기록을 통해)을 식별하는 계층적 주파수 태깝 프로브(HFTP)를 소개합니다. 우리의 결과는 GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1, GLM-4와 같은 모델들이 유사한 계층에서 구문을 처리하는 반면, 인간 뇌는 서로 다른 구문 수준에 대해 별개의 피질 영역에 의존한다는 것을 보여줍니다. 표현 유사성 분석은 LLM 표현과 언어 처리에서 우세한 뇌의 좌반구 사이에 더 강한 일치를 보여줍니다. 특히, 업그레이드된 모델들은 상이한 경향을 보입니다: Gemma 2는 Gemma보다 뇌와 더 큰 유사성을 보이는 반면, Llama 3.1은 Llama 2에 비해 뇌와의 일치도가 낮습니다. 이러한 발견들은 LLM 행동 개선의 해석 가능성에 대한 새로운 통찰을 제공하며, 이러한 발전이 인간과 유사한 메커니즘인지 아닌지에 대한 질문을 제기하고, HFTP를 계산 언어학과 인지 신경과학을 연결하는 가치 있는 도구로 확립합니다. 이 프로젝트는 https://github.com/LilTiger/HFTP에서 확인할 수 있습니다.
English
Large Language Models (LLMs) demonstrate human-level or even superior
language abilities, effectively modeling syntactic structures, yet the specific
computational modules responsible remain unclear. A key question is whether LLM
behavioral capabilities stem from mechanisms akin to those in the human brain.
To address these questions, we introduce the Hierarchical Frequency Tagging
Probe (HFTP), a tool that utilizes frequency-domain analysis to identify
neuron-wise components of LLMs (e.g., individual Multilayer Perceptron (MLP)
neurons) and cortical regions (via intracranial recordings) encoding syntactic
structures. Our results show that models such as GPT-2, Gemma, Gemma 2, Llama
2, Llama 3.1, and GLM-4 process syntax in analogous layers, while the human
brain relies on distinct cortical regions for different syntactic levels.
Representational similarity analysis reveals a stronger alignment between LLM
representations and the left hemisphere of the brain (dominant in language
processing). Notably, upgraded models exhibit divergent trends: Gemma 2 shows
greater brain similarity than Gemma, while Llama 3.1 shows less alignment with
the brain compared to Llama 2. These findings offer new insights into the
interpretability of LLM behavioral improvements, raising questions about
whether these advancements are driven by human-like or non-human-like
mechanisms, and establish HFTP as a valuable tool bridging computational
linguistics and cognitive neuroscience. This project is available at
https://github.com/LilTiger/HFTP.