ChatPaper.aiChatPaper

VersatileFFN:適応的ワイド&ディープ再利用によるLLMのパラメータ効率化

VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

December 16, 2025
著者: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang
cs.AI

要旨

大規模言語モデル(LLM)の急速なスケーリングは顕著な性能向上をもたらしたが、同時に膨大なメモリコストも招いている。既存のパラメータ効率化手法(プルーニングや量子化など)は、主に事前学習済みモデルを圧縮するものであり、アーキテクチャの能力を強化しないため、ベースモデルの表現力の限界に直面する。本研究では、固定パラメータ予算内で幅と深さの両次元におけるパラメータの柔軟な再利用を可能にする、新たなフィードフォワードネットワーク(FFN)であるVersatileFFNを提案する。認知の二重過程理論に着想を得たVersatileFFNは、2つの適応経路で構成される。幅可変経路は、単一の共有FFNからサブエキスパートの混合を生成し、パラメータを増加させることなくスパースなエキスパートルーティングを模倣する。深さ可変経路は、同じFFNを再帰的に適用し、複雑なトークンに対するより深い処理をエミュレートする。難易度対応ゲーティングがこれら2つの経路を動的に調整し、「容易な」トークンは効率的な幅方向の経路を通し、「困難な」トークンにはより深い反復的な精緻化を割り当てる。重要な点は、両経路が同じパラメータを再利用するため、追加の能力はすべてメモリではなく計算からもたらされることである。様々なベンチマークとモデル規模における実験により、本手法の有効性が実証された。コードはhttps://github.com/huawei-noah/noah-research/tree/master/VersatileFFN で公開予定である。
English
The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
PDF102December 18, 2025