Modelli di Base Configurabili: Costruzione di LLM da una Prospettiva Modulare
Configurable Foundation Models: Building LLMs from a Modular Perspective
September 4, 2024
Autori: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun
cs.AI
Abstract
I progressi nei LLM hanno recentemente rivelato sfide legate all'efficienza computazionale e alla scalabilità continua a causa dei loro requisiti di enormi parametri, rendendo sempre più complicata l'applicazione e l'evoluzione di questi modelli su dispositivi con risorse di calcolo limitate e in scenari che richiedono varie abilità. Ispirati alla modularità nel cervello umano, c'è una crescente tendenza a decomporre i LLM in numerosi moduli funzionali, consentendo inferenze con parte dei moduli e l'assemblaggio dinamico dei moduli per affrontare compiti complessi, come il mixture-of-experts. Per evidenziare l'efficienza intrinseca e la componibilità dell'approccio modulare, coniamo il termine mattoncino per rappresentare ciascun modulo funzionale, designando la struttura modularizzata come modelli fondamentali configurabili. In questo articolo, offriamo una panoramica completa e un'indagine sulla costruzione, l'utilizzo e i limiti dei modelli fondamentali configurabili. Formalizziamo prima i moduli in mattoncini emergenti - partizioni funzionali dei neuroni che emergono durante la fase di pre-training, e mattoncini personalizzati - mattoncini costruiti tramite ulteriore post-training per migliorare le capacità e le conoscenze dei LLM. Sulla base di diversi mattoncini funzionali, presentiamo inoltre quattro operazioni orientate ai mattoncini: recupero e instradamento, fusione, aggiornamento e crescita. Queste operazioni consentono la configurazione dinamica dei LLM basata su istruzioni per gestire compiti complessi. Per verificare la nostra prospettiva, conduciamo un'analisi empirica su LLM ampiamente utilizzati. Troviamo che gli strati FFN seguono schemi modulari con specializzazione funzionale dei neuroni e partizioni funzionali dei neuroni. Infine, evidenziamo diverse questioni aperte e direzioni per la ricerca futura. In generale, questo articolo mira a offrire una prospettiva modulare fresca sulla ricerca esistente sui LLM e a ispirare la creazione futura di modelli fondamentali più efficienti e scalabili.
English
Advancements in LLMs have recently unveiled challenges tied to computational
efficiency and continual scalability due to their requirements of huge
parameters, making the applications and evolution of these models on devices
with limited computation resources and scenarios requiring various abilities
increasingly cumbersome. Inspired by modularity within the human brain, there
is a growing tendency to decompose LLMs into numerous functional modules,
allowing for inference with part of modules and dynamic assembly of modules to
tackle complex tasks, such as mixture-of-experts. To highlight the inherent
efficiency and composability of the modular approach, we coin the term brick to
represent each functional module, designating the modularized structure as
configurable foundation models. In this paper, we offer a comprehensive
overview and investigation of the construction, utilization, and limitation of
configurable foundation models. We first formalize modules into emergent bricks
- functional neuron partitions that emerge during the pre-training phase, and
customized bricks - bricks constructed via additional post-training to improve
the capabilities and knowledge of LLMs. Based on diverse functional bricks, we
further present four brick-oriented operations: retrieval and routing, merging,
updating, and growing. These operations allow for dynamic configuration of LLMs
based on instructions to handle complex tasks. To verify our perspective, we
conduct an empirical analysis on widely-used LLMs. We find that the FFN layers
follow modular patterns with functional specialization of neurons and
functional neuron partitions. Finally, we highlight several open issues and
directions for future research. Overall, this paper aims to offer a fresh
modular perspective on existing LLM research and inspire the future creation of
more efficient and scalable foundational models.Summary
AI-Generated Summary