Het ontrafelen van de cognitieve patronen van Large Language Models door middel van modulegemeenschappen

Samenvatting

Grote Taalmodellen (LLMs) hebben onze wereld hervormd met aanzienlijke vooruitgang in wetenschap, techniek en maatschappij door toepassingen variërend van wetenschappelijke ontdekkingen en medische diagnostiek tot chatbots. Ondanks hun alomtegenwoordigheid en nut blijven de onderliggende mechanismen van LLMs verborgen in miljarden parameters en complexe structuren, waardoor hun interne architectuur en cognitieve processen moeilijk te begrijpen zijn. Wij pakken deze kloof aan door benaderingen te hanteren om opkomende cognitie in de biologie te begrijpen en een netwerkgebaseerd raamwerk te ontwikkelen dat cognitieve vaardigheden, LLM-architecturen en datasets met elkaar verbindt, wat een paradigmaverschuiving in de analyse van fundamentele modellen inluidt. De vaardigheidsverdeling in de modulegemeenschappen toont aan dat, hoewel LLMs niet strikt parallel lopen aan de gefocuste specialisatie die wordt waargenomen in specifieke biologische systemen, ze unieke gemeenschappen van modules vertonen waarvan de opkomende vaardigheidspatronen gedeeltelijk de gedistribueerde maar onderling verbonden cognitieve organisatie weerspiegelen die wordt gezien in vogel- en kleine zoogdierhersenen. Onze numerieke resultaten benadrukken een belangrijk verschil tussen biologische systemen en LLMs, waar vaardigheidsverwerving aanzienlijk profiteert van dynamische, cross-regionale interacties en neurale plasticiteit. Door principes uit de cognitieve wetenschap te integreren met machine learning, biedt ons raamwerk nieuwe inzichten in de interpreteerbaarheid van LLMs en suggereert het dat effectieve fine-tuningstrategieën gebruik moeten maken van gedistribueerde leer dynamieken in plaats van rigide modulaire interventies.

English

Large Language Models (LLMs) have reshaped our world with significant advancements in science, engineering, and society through applications ranging from scientific discoveries and medical diagnostics to Chatbots. Despite their ubiquity and utility, the underlying mechanisms of LLM remain concealed within billions of parameters and complex structures, making their inner architecture and cognitive processes challenging to comprehend. We address this gap by adopting approaches to understanding emerging cognition in biology and developing a network-based framework that links cognitive skills, LLM architectures, and datasets, ushering in a paradigm shift in foundation model analysis. The skill distribution in the module communities demonstrates that while LLMs do not strictly parallel the focalized specialization observed in specific biological systems, they exhibit unique communities of modules whose emergent skill patterns partially mirror the distributed yet interconnected cognitive organization seen in avian and small mammalian brains. Our numerical results highlight a key divergence from biological systems to LLMs, where skill acquisition benefits substantially from dynamic, cross-regional interactions and neural plasticity. By integrating cognitive science principles with machine learning, our framework provides new insights into LLM interpretability and suggests that effective fine-tuning strategies should leverage distributed learning dynamics rather than rigid modular interventions.

Het ontrafelen van de cognitieve patronen van Large Language Models door middel van modulegemeenschappen

Unraveling the cognitive patterns of Large Language Models through module communities

Samenvatting

Support