ChatPaper.aiChatPaper

Desvendando os padrões cognitivos dos Modelos de Linguagem de Grande Escala por meio de comunidades de módulos

Unraveling the cognitive patterns of Large Language Models through module communities

August 25, 2025
Autores: Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) transformaram nosso mundo com avanços significativos na ciência, engenharia e sociedade, por meio de aplicações que vão desde descobertas científicas e diagnósticos médicos até chatbots. Apesar de sua onipresença e utilidade, os mecanismos subjacentes dos LLMs permanecem ocultos em bilhões de parâmetros e estruturas complexas, tornando sua arquitetura interna e processos cognitivos difíceis de compreender. Abordamos essa lacuna adotando abordagens para entender a cognição emergente na biologia e desenvolvendo uma estrutura baseada em redes que conecta habilidades cognitivas, arquiteturas de LLMs e conjuntos de dados, inaugurando uma mudança de paradigma na análise de modelos de base. A distribuição de habilidades nas comunidades de módulos demonstra que, embora os LLMs não sigam estritamente a especialização focalizada observada em sistemas biológicos específicos, eles exibem comunidades únicas de módulos cujos padrões emergentes de habilidades espelham parcialmente a organização cognitiva distribuída, mas interconectada, observada em cérebros de aves e pequenos mamíferos. Nossos resultados numéricos destacam uma divergência crucial entre sistemas biológicos e LLMs, onde a aquisição de habilidades se beneficia substancialmente de interações dinâmicas e inter-regionais e da plasticidade neural. Ao integrar princípios da ciência cognitiva com o aprendizado de máquina, nossa estrutura fornece novos insights sobre a interpretabilidade dos LLMs e sugere que estratégias eficazes de ajuste fino devem aproveitar dinâmicas de aprendizado distribuído em vez de intervenções modulares rígidas.
English
Large Language Models (LLMs) have reshaped our world with significant advancements in science, engineering, and society through applications ranging from scientific discoveries and medical diagnostics to Chatbots. Despite their ubiquity and utility, the underlying mechanisms of LLM remain concealed within billions of parameters and complex structures, making their inner architecture and cognitive processes challenging to comprehend. We address this gap by adopting approaches to understanding emerging cognition in biology and developing a network-based framework that links cognitive skills, LLM architectures, and datasets, ushering in a paradigm shift in foundation model analysis. The skill distribution in the module communities demonstrates that while LLMs do not strictly parallel the focalized specialization observed in specific biological systems, they exhibit unique communities of modules whose emergent skill patterns partially mirror the distributed yet interconnected cognitive organization seen in avian and small mammalian brains. Our numerical results highlight a key divergence from biological systems to LLMs, where skill acquisition benefits substantially from dynamic, cross-regional interactions and neural plasticity. By integrating cognitive science principles with machine learning, our framework provides new insights into LLM interpretability and suggests that effective fine-tuning strategies should leverage distributed learning dynamics rather than rigid modular interventions.
PDF32August 27, 2025