VersatileFFN : Atteindre l'efficacité paramétrique dans les LLMs via une réutilisation adaptative large-et-profonde
VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
December 16, 2025
papers.authors: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang
cs.AI
papers.abstract
La mise à l'échelle rapide des grands modèles de langage (LLM) a permis d'atteindre des performances remarquables, mais elle entraîne également des coûts mémoire prohibitifs. Les approches existantes d'optimisation des paramètres, telles que l'élagage et la quantification, compriment principalement les modèles pré-entraînés sans améliorer leur capacité architecturale, atteignant ainsi le plafond de représentation du modèle de base. Dans ce travail, nous proposons VersatileFFN, un nouveau réseau feed-forward (FFN) permettant une réutilisation flexible des paramètres dans les dimensions de largeur et de profondeur, avec un budget de paramètres fixe. Inspiré par la théorie des doubles processus cognitifs, VersatileFFN comprend deux voies adaptatives : une voie à largeur versatile qui génère un mélange de sous-experts à partir d'un seul FFN partagé, imitant le routage parcimonieux d'experts sans augmenter les paramètres, et une voie à profondeur versatile qui applique récursivement le même FFN pour simuler un traitement plus profond pour les tokens complexes. Une porte à sensibilité de difficulté équilibre dynamiquement les deux voies, orientant les tokens "faciles" vers la route efficace en largeur et allouant un raffinement itératif plus profond aux tokens "difficiles". De manière cruciale, les deux voies réutilisent les mêmes paramètres, donc toute capacité supplémentaire provient du calcul plutôt que de la mémoire. Les expériences menées sur divers benchmarks et échelles de modèles démontrent l'efficacité de la méthode. Le code sera disponible à l'adresse https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
English
The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.