ChatPaper.aiChatPaper

Configureerbare Basismodellen: Het Bouwen van LLM's vanuit een Modulair Perspectief

Configurable Foundation Models: Building LLMs from a Modular Perspective

September 4, 2024
Auteurs: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun
cs.AI

Samenvatting

Vooruitgang in LLM's heeft recentelijk uitdagingen blootgelegd die verband houden met computationele efficiëntie en continue schaalbaarheid vanwege hun behoefte aan enorme aantallen parameters, wat de toepassing en evolutie van deze modellen op apparaten met beperkte rekenbronnen en scenario's die verschillende vaardigheden vereisen steeds lastiger maakt. Geïnspireerd door modulariteit in het menselijk brein, is er een groeiende tendens om LLM's op te splitsen in talrijke functionele modules, waardoor inferentie met een deel van de modules en dynamische assemblage van modules mogelijk wordt om complexe taken aan te pakken, zoals bij 'mixture-of-experts'. Om de inherente efficiëntie en samenstelbaarheid van de modulaire aanpak te benadrukken, introduceren we de term 'brick' om elke functionele module te representeren, en duiden we de gemodulariseerde structuur aan als configureerbare foundation modellen. In dit artikel bieden we een uitgebreid overzicht en onderzoek van de constructie, het gebruik en de beperkingen van configureerbare foundation modellen. We formaliseren eerst modules in emergent bricks - functionele neuronpartities die ontstaan tijdens de pre-trainingsfase, en customized bricks - bricks die worden geconstrueerd via aanvullende post-training om de capaciteiten en kennis van LLM's te verbeteren. Op basis van diverse functionele bricks presenteren we verder vier brick-georiënteerde operaties: retrieval en routing, samenvoegen, updaten en groeien. Deze operaties maken dynamische configuratie van LLM's mogelijk op basis van instructies om complexe taken te behandelen. Om ons perspectief te valideren, voeren we een empirische analyse uit op veelgebruikte LLM's. We ontdekken dat de FFN-lagen modulaire patronen volgen met functionele specialisatie van neuronen en functionele neuronpartities. Tot slot belichten we enkele openstaande kwesties en richtingen voor toekomstig onderzoek. Over het algemeen beoogt dit artikel een frisse modulaire kijk te bieden op bestaand LLM-onderzoek en de toekomstige creatie van efficiëntere en schaalbare foundation modellen te inspireren.
English
Advancements in LLMs have recently unveiled challenges tied to computational efficiency and continual scalability due to their requirements of huge parameters, making the applications and evolution of these models on devices with limited computation resources and scenarios requiring various abilities increasingly cumbersome. Inspired by modularity within the human brain, there is a growing tendency to decompose LLMs into numerous functional modules, allowing for inference with part of modules and dynamic assembly of modules to tackle complex tasks, such as mixture-of-experts. To highlight the inherent efficiency and composability of the modular approach, we coin the term brick to represent each functional module, designating the modularized structure as configurable foundation models. In this paper, we offer a comprehensive overview and investigation of the construction, utilization, and limitation of configurable foundation models. We first formalize modules into emergent bricks - functional neuron partitions that emerge during the pre-training phase, and customized bricks - bricks constructed via additional post-training to improve the capabilities and knowledge of LLMs. Based on diverse functional bricks, we further present four brick-oriented operations: retrieval and routing, merging, updating, and growing. These operations allow for dynamic configuration of LLMs based on instructions to handle complex tasks. To verify our perspective, we conduct an empirical analysis on widely-used LLMs. We find that the FFN layers follow modular patterns with functional specialization of neurons and functional neuron partitions. Finally, we highlight several open issues and directions for future research. Overall, this paper aims to offer a fresh modular perspective on existing LLM research and inspire the future creation of more efficient and scalable foundational models.
PDF302November 16, 2024