ChatPaper.aiChatPaper

Modèles de base configurables : Construction de LLM à partir d'une perspective modulaire

Configurable Foundation Models: Building LLMs from a Modular Perspective

September 4, 2024
Auteurs: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun
cs.AI

Résumé

Les progrès réalisés dans les LLM ont récemment révélé des défis liés à l'efficacité computationnelle et à la scalabilité continue en raison de leurs exigences en termes de paramètres massifs, rendant les applications et l'évolution de ces modèles sur des appareils avec des ressources de calcul limitées et des scénarios nécessitant diverses capacités de plus en plus complexes. Inspirés par la modularité du cerveau humain, il existe une tendance croissante à décomposer les LLM en de nombreux modules fonctionnels, permettant l'inférence avec une partie des modules et l'assemblage dynamique des modules pour aborder des tâches complexes, telles que le mélange d'experts. Pour mettre en avant l'efficacité inhérente et la composabilité de l'approche modulaire, nous introduisons le terme "brique" pour représenter chaque module fonctionnel, désignant la structure modularisée comme des modèles de base configurables. Dans cet article, nous offrons un aperçu complet et une analyse de la construction, de l'utilisation et des limites des modèles de base configurables. Nous formalisons d'abord les modules en briques émergentes - des partitions fonctionnelles de neurones qui émergent pendant la phase de pré-entraînement, et des briques personnalisées - des briques construites via un post-entraînement supplémentaire pour améliorer les capacités et les connaissances des LLM. Sur la base de diverses briques fonctionnelles, nous présentons ensuite quatre opérations orientées brique : la récupération et le routage, la fusion, la mise à jour et la croissance. Ces opérations permettent une configuration dynamique des LLM en fonction des instructions pour gérer des tâches complexes. Pour vérifier notre perspective, nous menons une analyse empirique sur des LLM largement utilisés. Nous constatons que les couches FFN suivent des schémas modulaires avec une spécialisation fonctionnelle des neurones et des partitions fonctionnelles de neurones. Enfin, nous mettons en lumière plusieurs problèmes ouverts et des orientations pour des recherches futures. Dans l'ensemble, cet article vise à offrir une perspective modulaire nouvelle sur la recherche existante sur les LLM et à inspirer la création future de modèles de base plus efficaces et évolutifs.
English
Advancements in LLMs have recently unveiled challenges tied to computational efficiency and continual scalability due to their requirements of huge parameters, making the applications and evolution of these models on devices with limited computation resources and scenarios requiring various abilities increasingly cumbersome. Inspired by modularity within the human brain, there is a growing tendency to decompose LLMs into numerous functional modules, allowing for inference with part of modules and dynamic assembly of modules to tackle complex tasks, such as mixture-of-experts. To highlight the inherent efficiency and composability of the modular approach, we coin the term brick to represent each functional module, designating the modularized structure as configurable foundation models. In this paper, we offer a comprehensive overview and investigation of the construction, utilization, and limitation of configurable foundation models. We first formalize modules into emergent bricks - functional neuron partitions that emerge during the pre-training phase, and customized bricks - bricks constructed via additional post-training to improve the capabilities and knowledge of LLMs. Based on diverse functional bricks, we further present four brick-oriented operations: retrieval and routing, merging, updating, and growing. These operations allow for dynamic configuration of LLMs based on instructions to handle complex tasks. To verify our perspective, we conduct an empirical analysis on widely-used LLMs. We find that the FFN layers follow modular patterns with functional specialization of neurons and functional neuron partitions. Finally, we highlight several open issues and directions for future research. Overall, this paper aims to offer a fresh modular perspective on existing LLM research and inspire the future creation of more efficient and scalable foundational models.

Summary

AI-Generated Summary

PDF302November 16, 2024