Конфигурируемые модели основы: построение LLM с модульной перспективы
Configurable Foundation Models: Building LLMs from a Modular Perspective
September 4, 2024
Авторы: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun
cs.AI
Аннотация
Недавние достижения в области LLMs выявили вызовы, связанные с вычислительной эффективностью и постоянным масштабированием из-за требований к огромным параметрам, что делает применение и развитие этих моделей на устройствах с ограниченными вычислительными ресурсами и в сценариях, требующих различных способностей, все более громоздкими. Вдохновленные модульностью в человеческом мозге, наблюдается растущая тенденция декомпозиции LLMs на многочисленные функциональные модули, позволяющие делать выводы с использованием части модулей и динамическую сборку модулей для решения сложных задач, таких как смесь экспертов. Для выделения врожденной эффективности и комбинируемости модульного подхода мы вводим термин кирпич для обозначения каждого функционального модуля, обозначая модульную структуру как настраиваемые фундаментальные модели. В данной статье мы предлагаем всесторонний обзор и исследование построения, использования и ограничений настраиваемых фундаментальных моделей. Сначала мы формализуем модули в всплывающие кирпичи - функциональные разделения нейронов, возникающие во время предварительного обучения, и настраиваемые кирпичи - кирпичи, созданные с помощью дополнительного послеобучения для улучшения возможностей и знаний LLMs. Основываясь на разнообразных функциональных кирпичах, мы далее представляем четыре операции, ориентированные на кирпичи: поиск и маршрутизация, слияние, обновление и расширение. Эти операции позволяют динамически настраивать LLMs на основе инструкций для решения сложных задач. Для проверки нашей точки зрения мы проводим эмпирический анализ на широко используемых LLMs. Мы обнаруживаем, что слои FFN следуют модульным паттернам с функциональной специализацией нейронов и функциональными разделениями нейронов. Наконец, мы выделяем несколько открытых вопросов и направлений для будущих исследований. В целом, цель данной статьи - предложить новую модульную перспективу на существующие исследования в области LLM и вдохновить на создание в будущем более эффективных и масштабируемых фундаментальных моделей.
English
Advancements in LLMs have recently unveiled challenges tied to computational
efficiency and continual scalability due to their requirements of huge
parameters, making the applications and evolution of these models on devices
with limited computation resources and scenarios requiring various abilities
increasingly cumbersome. Inspired by modularity within the human brain, there
is a growing tendency to decompose LLMs into numerous functional modules,
allowing for inference with part of modules and dynamic assembly of modules to
tackle complex tasks, such as mixture-of-experts. To highlight the inherent
efficiency and composability of the modular approach, we coin the term brick to
represent each functional module, designating the modularized structure as
configurable foundation models. In this paper, we offer a comprehensive
overview and investigation of the construction, utilization, and limitation of
configurable foundation models. We first formalize modules into emergent bricks
- functional neuron partitions that emerge during the pre-training phase, and
customized bricks - bricks constructed via additional post-training to improve
the capabilities and knowledge of LLMs. Based on diverse functional bricks, we
further present four brick-oriented operations: retrieval and routing, merging,
updating, and growing. These operations allow for dynamic configuration of LLMs
based on instructions to handle complex tasks. To verify our perspective, we
conduct an empirical analysis on widely-used LLMs. We find that the FFN layers
follow modular patterns with functional specialization of neurons and
functional neuron partitions. Finally, we highlight several open issues and
directions for future research. Overall, this paper aims to offer a fresh
modular perspective on existing LLM research and inspire the future creation of
more efficient and scalable foundational models.Summary
AI-Generated Summary