Svelare i modelli cognitivi dei Modelli Linguistici di Grande Scala attraverso le comunità di moduli
Unraveling the cognitive patterns of Large Language Models through module communities
August 25, 2025
Autori: Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
cs.AI
Abstract
I Large Language Model (LLM) hanno trasformato il nostro mondo con progressi significativi nella scienza, nell'ingegneria e nella società, attraverso applicazioni che spaziano dalle scoperte scientifiche e la diagnostica medica ai chatbot. Nonostante la loro ubiquità e utilità, i meccanismi sottostanti degli LLM rimangono nascosti all'interno di miliardi di parametri e strutture complesse, rendendo la loro architettura interna e i processi cognitivi difficili da comprendere. Affrontiamo questa lacuna adottando approcci per comprendere la cognizione emergente in biologia e sviluppando un framework basato su reti che collega abilità cognitive, architetture degli LLM e dataset, introducendo un cambiamento di paradigma nell'analisi dei modelli di base. La distribuzione delle abilità nelle comunità di moduli dimostra che, sebbene gli LLM non rispecchino strettamente la specializzazione focalizzata osservata in specifici sistemi biologici, presentano comunità uniche di moduli i cui schemi di abilità emergenti riflettono parzialmente l'organizzazione cognitiva distribuita ma interconnessa osservata nei cervelli degli uccelli e dei piccoli mammiferi. I nostri risultati numerici evidenziano una divergenza chiave tra i sistemi biologici e gli LLM, in cui l'acquisizione di abilità beneficia in modo sostanziale da interazioni dinamiche e transregionali e dalla plasticità neurale. Integrando i principi della scienza cognitiva con il machine learning, il nostro framework offre nuove intuizioni sull'interpretabilità degli LLM e suggerisce che strategie efficaci di fine-tuning dovrebbero sfruttare dinamiche di apprendimento distribuito piuttosto che interventi modulari rigidi.
English
Large Language Models (LLMs) have reshaped our world with significant
advancements in science, engineering, and society through applications ranging
from scientific discoveries and medical diagnostics to Chatbots. Despite their
ubiquity and utility, the underlying mechanisms of LLM remain concealed within
billions of parameters and complex structures, making their inner architecture
and cognitive processes challenging to comprehend. We address this gap by
adopting approaches to understanding emerging cognition in biology and
developing a network-based framework that links cognitive skills, LLM
architectures, and datasets, ushering in a paradigm shift in foundation model
analysis. The skill distribution in the module communities demonstrates that
while LLMs do not strictly parallel the focalized specialization observed in
specific biological systems, they exhibit unique communities of modules whose
emergent skill patterns partially mirror the distributed yet interconnected
cognitive organization seen in avian and small mammalian brains. Our numerical
results highlight a key divergence from biological systems to LLMs, where skill
acquisition benefits substantially from dynamic, cross-regional interactions
and neural plasticity. By integrating cognitive science principles with machine
learning, our framework provides new insights into LLM interpretability and
suggests that effective fine-tuning strategies should leverage distributed
learning dynamics rather than rigid modular interventions.