Modelos de Fundação Configuráveis: Construindo LLMs a partir de uma Perspectiva Modular
Configurable Foundation Models: Building LLMs from a Modular Perspective
September 4, 2024
Autores: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun
cs.AI
Resumo
Os avanços em LLMs recentemente revelaram desafios ligados à eficiência computacional e escalabilidade contínua devido aos seus requisitos de enormes parâmetros, tornando as aplicações e evolução desses modelos em dispositivos com recursos de computação limitados e cenários que exigem diversas habilidades cada vez mais complicados. Inspirados na modularidade dentro do cérebro humano, há uma crescente tendência de decompor LLMs em vários módulos funcionais, permitindo inferência com parte dos módulos e montagem dinâmica de módulos para lidar com tarefas complexas, como mistura de especialistas. Para destacar a eficiência inerente e a componibilidade da abordagem modular, cunhamos o termo bloco para representar cada módulo funcional, designando a estrutura modularizada como modelos de fundação configuráveis. Neste artigo, oferecemos uma visão abrangente e investigação da construção, utilização e limitação de modelos de fundação configuráveis. Primeiramente, formalizamos os módulos em blocos emergentes - partições funcionais de neurônios que emergem durante a fase de pré-treinamento, e blocos personalizados - blocos construídos por meio de treinamento adicional para melhorar as capacidades e conhecimento dos LLMs. Com base em diversos blocos funcionais, apresentamos ainda quatro operações orientadas a blocos: recuperação e roteamento, fusão, atualização e crescimento. Essas operações permitem a configuração dinâmica de LLMs com base em instruções para lidar com tarefas complexas. Para verificar nossa perspectiva, realizamos uma análise empírica em LLMs amplamente utilizados. Descobrimos que as camadas FFN seguem padrões modulares com especialização funcional de neurônios e partições funcionais de neurônios. Por fim, destacamos várias questões em aberto e direções para pesquisas futuras. No geral, este artigo tem como objetivo oferecer uma nova perspectiva modular sobre a pesquisa existente em LLMs e inspirar a criação futura de modelos fundamentais mais eficientes e escaláveis.
English
Advancements in LLMs have recently unveiled challenges tied to computational
efficiency and continual scalability due to their requirements of huge
parameters, making the applications and evolution of these models on devices
with limited computation resources and scenarios requiring various abilities
increasingly cumbersome. Inspired by modularity within the human brain, there
is a growing tendency to decompose LLMs into numerous functional modules,
allowing for inference with part of modules and dynamic assembly of modules to
tackle complex tasks, such as mixture-of-experts. To highlight the inherent
efficiency and composability of the modular approach, we coin the term brick to
represent each functional module, designating the modularized structure as
configurable foundation models. In this paper, we offer a comprehensive
overview and investigation of the construction, utilization, and limitation of
configurable foundation models. We first formalize modules into emergent bricks
- functional neuron partitions that emerge during the pre-training phase, and
customized bricks - bricks constructed via additional post-training to improve
the capabilities and knowledge of LLMs. Based on diverse functional bricks, we
further present four brick-oriented operations: retrieval and routing, merging,
updating, and growing. These operations allow for dynamic configuration of LLMs
based on instructions to handle complex tasks. To verify our perspective, we
conduct an empirical analysis on widely-used LLMs. We find that the FFN layers
follow modular patterns with functional specialization of neurons and
functional neuron partitions. Finally, we highlight several open issues and
directions for future research. Overall, this paper aims to offer a fresh
modular perspective on existing LLM research and inspire the future creation of
more efficient and scalable foundational models.Summary
AI-Generated Summary