ChatPaper.aiChatPaper

Modelos de Fundação Configuráveis: Construindo LLMs a partir de uma Perspectiva Modular

Configurable Foundation Models: Building LLMs from a Modular Perspective

September 4, 2024
Autores: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun
cs.AI

Resumo

Os avanços em LLMs recentemente revelaram desafios ligados à eficiência computacional e escalabilidade contínua devido aos seus requisitos de enormes parâmetros, tornando as aplicações e evolução desses modelos em dispositivos com recursos de computação limitados e cenários que exigem diversas habilidades cada vez mais complicados. Inspirados na modularidade dentro do cérebro humano, há uma crescente tendência de decompor LLMs em vários módulos funcionais, permitindo inferência com parte dos módulos e montagem dinâmica de módulos para lidar com tarefas complexas, como mistura de especialistas. Para destacar a eficiência inerente e a componibilidade da abordagem modular, cunhamos o termo bloco para representar cada módulo funcional, designando a estrutura modularizada como modelos de fundação configuráveis. Neste artigo, oferecemos uma visão abrangente e investigação da construção, utilização e limitação de modelos de fundação configuráveis. Primeiramente, formalizamos os módulos em blocos emergentes - partições funcionais de neurônios que emergem durante a fase de pré-treinamento, e blocos personalizados - blocos construídos por meio de treinamento adicional para melhorar as capacidades e conhecimento dos LLMs. Com base em diversos blocos funcionais, apresentamos ainda quatro operações orientadas a blocos: recuperação e roteamento, fusão, atualização e crescimento. Essas operações permitem a configuração dinâmica de LLMs com base em instruções para lidar com tarefas complexas. Para verificar nossa perspectiva, realizamos uma análise empírica em LLMs amplamente utilizados. Descobrimos que as camadas FFN seguem padrões modulares com especialização funcional de neurônios e partições funcionais de neurônios. Por fim, destacamos várias questões em aberto e direções para pesquisas futuras. No geral, este artigo tem como objetivo oferecer uma nova perspectiva modular sobre a pesquisa existente em LLMs e inspirar a criação futura de modelos fundamentais mais eficientes e escaláveis.
English
Advancements in LLMs have recently unveiled challenges tied to computational efficiency and continual scalability due to their requirements of huge parameters, making the applications and evolution of these models on devices with limited computation resources and scenarios requiring various abilities increasingly cumbersome. Inspired by modularity within the human brain, there is a growing tendency to decompose LLMs into numerous functional modules, allowing for inference with part of modules and dynamic assembly of modules to tackle complex tasks, such as mixture-of-experts. To highlight the inherent efficiency and composability of the modular approach, we coin the term brick to represent each functional module, designating the modularized structure as configurable foundation models. In this paper, we offer a comprehensive overview and investigation of the construction, utilization, and limitation of configurable foundation models. We first formalize modules into emergent bricks - functional neuron partitions that emerge during the pre-training phase, and customized bricks - bricks constructed via additional post-training to improve the capabilities and knowledge of LLMs. Based on diverse functional bricks, we further present four brick-oriented operations: retrieval and routing, merging, updating, and growing. These operations allow for dynamic configuration of LLMs based on instructions to handle complex tasks. To verify our perspective, we conduct an empirical analysis on widely-used LLMs. We find that the FFN layers follow modular patterns with functional specialization of neurons and functional neuron partitions. Finally, we highlight several open issues and directions for future research. Overall, this paper aims to offer a fresh modular perspective on existing LLM research and inspire the future creation of more efficient and scalable foundational models.

Summary

AI-Generated Summary

PDF302November 16, 2024