ChatPaper.aiChatPaper

Sonde d'Étiquetage Hiérarchique des Fréquences (SEHF) : Une Approche Unifiée pour Étudier les Représentations de la Structure Syntaxique dans les Grands Modèles de Langage et le Cerveau Humain

Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain

October 15, 2025
papers.authors: Jingmin An, Yilong Song, Ruolin Yang, Nai Ding, Lingxi Lu, Yuxuan Wang, Wei Wang, Chu Zhuang, Qian Wang, Fang Fang
cs.AI

papers.abstract

Les modèles de langage à grande échelle (LLMs) démontrent des capacités linguistiques comparables, voire supérieures, à celles des humains, modélisant efficacement les structures syntaxiques, bien que les modules computationnels spécifiques responsables restent flous. Une question clé est de savoir si les capacités comportementales des LLMs découlent de mécanismes similaires à ceux du cerveau humain. Pour aborder ces questions, nous introduisons la Sonde d'Étiquetage Hiérarchique en Fréquence (HFTP), un outil qui utilise l'analyse dans le domaine fréquentiel pour identifier les composants neuronaux des LLMs (par exemple, les neurones individuels des Perceptrons Multicouches (MLP)) et les régions corticales (via des enregistrements intracrâniens) encodant les structures syntaxiques. Nos résultats montrent que des modèles tels que GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 et GLM-4 traitent la syntaxe dans des couches analogues, tandis que le cerveau humain s'appuie sur des régions corticales distinctes pour différents niveaux syntaxiques. L'analyse de similarité représentationnelle révèle un alignement plus fort entre les représentations des LLMs et l'hémisphère gauche du cerveau (dominant dans le traitement du langage). Notamment, les modèles améliorés présentent des tendances divergentes : Gemma 2 montre une plus grande similarité avec le cerveau que Gemma, tandis que Llama 3.1 montre un alignement moindre avec le cerveau par rapport à Llama 2. Ces résultats offrent de nouvelles perspectives sur l'interprétabilité des améliorations comportementales des LLMs, soulevant des questions sur la nature humaine ou non humaine des mécanismes sous-jacents, et établissent la HFTP comme un outil précieux reliant la linguistique computationnelle et les neurosciences cognitives. Ce projet est disponible à l'adresse https://github.com/LilTiger/HFTP.
English
Large Language Models (LLMs) demonstrate human-level or even superior language abilities, effectively modeling syntactic structures, yet the specific computational modules responsible remain unclear. A key question is whether LLM behavioral capabilities stem from mechanisms akin to those in the human brain. To address these questions, we introduce the Hierarchical Frequency Tagging Probe (HFTP), a tool that utilizes frequency-domain analysis to identify neuron-wise components of LLMs (e.g., individual Multilayer Perceptron (MLP) neurons) and cortical regions (via intracranial recordings) encoding syntactic structures. Our results show that models such as GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1, and GLM-4 process syntax in analogous layers, while the human brain relies on distinct cortical regions for different syntactic levels. Representational similarity analysis reveals a stronger alignment between LLM representations and the left hemisphere of the brain (dominant in language processing). Notably, upgraded models exhibit divergent trends: Gemma 2 shows greater brain similarity than Gemma, while Llama 3.1 shows less alignment with the brain compared to Llama 2. These findings offer new insights into the interpretability of LLM behavioral improvements, raising questions about whether these advancements are driven by human-like or non-human-like mechanisms, and establish HFTP as a valuable tool bridging computational linguistics and cognitive neuroscience. This project is available at https://github.com/LilTiger/HFTP.
PDF22February 7, 2026