ChatPaper.aiChatPaper

VersatileFFN: Erzielung von Parametereffizienz in LLMs durch adaptive Breit- und Tiefenwiederverwendung

VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

December 16, 2025
papers.authors: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang
cs.AI

papers.abstract

Das schnelle Skalieren großer Sprachmodelle (LLMs) hat bemerkenswerte Leistungen erzielt, führt aber auch zu prohibitiv hohen Speicherkosten. Bestehende parameter-effiziente Ansätze wie Pruning und Quantisierung komprimieren hauptsächlich vortrainierte Modelle, ohne deren architektonische Kapazität zu erweitern, und stoßen so an die Repräsentationsgrenze des Basismodells. In dieser Arbeit stellen wir VersatileFFN vor, ein neuartiges Feed-Forward-Netzwerk (FFN), das eine flexible Wiederverwendung von Parametern in sowohl Breiten- als auch Tiefendimensionen innerhalb eines festen Parameterbudgets ermöglicht. Inspiriert von der Dual-Process-Theorie der Kognition besteht VersatileFFN aus zwei adaptiven Pfaden: Ein breitenvarianter Pfad erzeugt eine Mischung von Sub-Experten aus einem einzigen gemeinsamen FFN, was ein sparsames Expert-Routing nachahmt, ohne Parameter zu erhöhen, und ein tiefenvarianter Pfad, der dasselbe FFN rekursiv anwendet, um eine tiefere Verarbeitung für komplexe Tokens zu emulieren. Eine schwierigkeitsbewusste Gating-Funktion balanciert die beiden Pfade dynamisch aus, leitet "einfache" Tokens über den effizienten Breiten-Pfad und weist "schwierigen" Tokens eine tiefere iterative Verfeinerung zu. Entscheidend ist, dass beide Pfade dieselben Parameter wiederverwenden, sodass die gesamte zusätzliche Kapazität durch Berechnung und nicht durch Speicher entsteht. Experimente über verschiedene Benchmarks und Modellgrößen hinweg demonstrieren die Wirksamkeit der Methode. Der Code wird unter https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN verfügbar sein.
English
The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
PDF102December 18, 2025