ChatPaper.aiChatPaper

VersatileFFN: Достижение параметрической эффективности в больших языковых моделях за счет адаптивного широкого и глубокого повторного использования

VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

December 16, 2025
Авторы: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang
cs.AI

Аннотация

Быстрое масштабирование больших языковых моделей (LLM) позволило достичь выдающихся результатов, однако оно также приводит к запретительно высоким затратам памяти. Существующие параметрически эффективные подходы, такие как прунинг и квантование, в основном сжимают предобученные модели без повышения архитектурной ёмкости, тем самым упираясь в репрезентационный потолок базовой модели. В данной работе мы предлагаем VersatileFFN — новую сеть прямого распространения (FFN), которая обеспечивает гибкое повторное использование параметров как по ширине, так и по глубине при фиксированном бюджете параметров. Вдохновлённые дуальной теорией познания, мы создали VersatileFFN, состоящую из двух адаптивных путей: ширино-вариативного пути, который генерирует смесь суб-экспертов из единственной разделяемой FFN, имитируя разреженную маршрутизацию экспертов без увеличения параметров, и глубино-вариативного пути, который рекурсивно применяет ту же FFN для эмуляции более глубокой обработки сложных токенов. Динамический затрудненно-чувствительный механизм балансирует два пути, направляя «простые» токены через эффективный ширино-ориентированный маршрут и выделяя более глубокую итеративную доработку для «сложных» токенов. Ключевым моментом является то, что оба пути повторно используют одни и те же параметры, поэтому вся дополнительная ёмкость достигается за счёт вычислений, а не памяти. Эксперименты на различных бенчмарках и масштабах моделей демонстрируют эффективность метода. Код будет доступен по адресу https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
English
The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
PDF102December 18, 2025