ChatPaper.aiChatPaper

Modelos de Base Configurables: Construyendo LLMs desde una Perspectiva Modular

Configurable Foundation Models: Building LLMs from a Modular Perspective

September 4, 2024
Autores: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun
cs.AI

Resumen

Los avances en LLMs han revelado recientemente desafíos vinculados a la eficiencia computacional y la escalabilidad continua debido a sus requisitos de enormes parámetros, lo que hace que las aplicaciones y la evolución de estos modelos en dispositivos con recursos de cómputo limitados y escenarios que requieren diversas habilidades sean cada vez más engorrosos. Inspirados por la modularidad dentro del cerebro humano, hay una creciente tendencia a descomponer los LLMs en numerosos módulos funcionales, permitiendo la inferencia con parte de los módulos y el ensamblaje dinámico de módulos para abordar tareas complejas, como la mezcla de expertos. Para resaltar la eficiencia inherente y la composabilidad del enfoque modular, acuñamos el término ladrillo para representar cada módulo funcional, designando la estructura modularizada como modelos de base configurables. En este documento, ofrecemos una visión general exhaustiva e investigación de la construcción, utilización y limitación de los modelos de base configurables. Primero formalizamos los módulos en ladrillos emergentes: particiones funcionales de neuronas que surgen durante la fase de pre-entrenamiento, y ladrillos personalizados: ladrillos construidos mediante un post-entrenamiento adicional para mejorar las capacidades y el conocimiento de los LLMs. Basándonos en diversos ladrillos funcionales, presentamos además cuatro operaciones orientadas a ladrillos: recuperación y enrutamiento, fusión, actualización y crecimiento. Estas operaciones permiten la configuración dinámica de los LLMs basada en instrucciones para manejar tareas complejas. Para verificar nuestra perspectiva, realizamos un análisis empírico en LLMs ampliamente utilizados. Descubrimos que las capas FFN siguen patrones modulares con especialización funcional de neuronas y particiones funcionales de neuronas. Finalmente, destacamos varios problemas abiertos y direcciones para futuras investigaciones. En general, este documento tiene como objetivo ofrecer una nueva perspectiva modular sobre la investigación existente en LLMs e inspirar la creación futura de modelos de base más eficientes y escalables.
English
Advancements in LLMs have recently unveiled challenges tied to computational efficiency and continual scalability due to their requirements of huge parameters, making the applications and evolution of these models on devices with limited computation resources and scenarios requiring various abilities increasingly cumbersome. Inspired by modularity within the human brain, there is a growing tendency to decompose LLMs into numerous functional modules, allowing for inference with part of modules and dynamic assembly of modules to tackle complex tasks, such as mixture-of-experts. To highlight the inherent efficiency and composability of the modular approach, we coin the term brick to represent each functional module, designating the modularized structure as configurable foundation models. In this paper, we offer a comprehensive overview and investigation of the construction, utilization, and limitation of configurable foundation models. We first formalize modules into emergent bricks - functional neuron partitions that emerge during the pre-training phase, and customized bricks - bricks constructed via additional post-training to improve the capabilities and knowledge of LLMs. Based on diverse functional bricks, we further present four brick-oriented operations: retrieval and routing, merging, updating, and growing. These operations allow for dynamic configuration of LLMs based on instructions to handle complex tasks. To verify our perspective, we conduct an empirical analysis on widely-used LLMs. We find that the FFN layers follow modular patterns with functional specialization of neurons and functional neuron partitions. Finally, we highlight several open issues and directions for future research. Overall, this paper aims to offer a fresh modular perspective on existing LLM research and inspire the future creation of more efficient and scalable foundational models.

Summary

AI-Generated Summary

PDF302November 16, 2024