ChatPaper.aiChatPaper

VersatileFFN: Parameter-efficiëntie bereiken in LLM's via adaptief breed-en-diep hergebruik

VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

December 16, 2025
Auteurs: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang
cs.AI

Samenvatting

De snelle schaalvergroting van Large Language Models (LLM's) heeft tot opmerkelijke prestaties geleid, maar brengt ook buitensporige geheugenkosten met zich mee. Bestaande parameter-efficiënte benaderingen, zoals pruning en kwantisatie, comprimeren voornamelijk voorgetrainde modellen zonder de architectonische capaciteit te vergroten, waardoor ze het representatieplafond van het basismodel bereiken. In dit werk stellen we VersatileFFN voor, een nieuw feedforward-netwerk (FFN) dat flexibel hergebruik van parameters in zowel breedte- als dieptedimensies mogelijk maakt binnen een vast parameterbudget. Geïnspireerd door de dual-process theorie van cognitie, bestaat VersatileFFN uit twee adaptieve paden: een breedte-veelzijdig pad dat een mengsel van sub-experts genereert vanuit een enkele gedeelde FFN, wat sparse expert routing nabootst zonder parameters te vergroten, en een diepte-veelzijdig pad dat dezelfde FFN recursief toepast om diepere verwerking voor complexe tokens te emuleren. Een moeilijkheidsbewuste gating-balanceert de twee paden dynamisch, waarbij "makkelijke" tokens via de efficiënte breedteroute worden geleid en diepere iteratieve verfijning wordt toegewezen aan "moeilijke" tokens. Cruciaal is dat beide paden dezelfde parameters hergebruiken, zodat alle extra capaciteit voortkomt uit rekenkracht in plaats van geheugen. Experimenten met diverse benchmarks en modelschalen demonstreren de effectiviteit van de methode. De code zal beschikbaar zijn op https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
English
The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
PDF102December 18, 2025