VersatileFFN: Raggiungere l'efficienza parametrica nei LLM tramite riutilizzo adattivo Wide-and-Deep
VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
December 16, 2025
Autori: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang
cs.AI
Abstract
La rapida scalabilità dei Large Language Model (LLM) ha ottenuto prestazioni notevoli, ma comporta anche costi di memoria proibitivi. Gli approcci esistenti efficienti in termini di parametri, come pruning e quantizzazione, comprimono principalmente i modelli preaddestrati senza potenziarne la capacità architetturale, raggiungendo così il limite rappresentativo del modello base. In questo lavoro proponiamo VersatileFFN, una nuova rete feed-forward (FFN) che consente il riutilizzo flessibile dei parametri nelle dimensioni di ampiezza e profondità entro un budget di parametri fisso. Ispirandoci alla teoria del doppio processo cognitivo, VersatileFFN comprende due pathway adattativi: un percorso versatile in ampiezza che genera una miscela di sotto-esperti da una singola FFN condivisa, simulando il routing sparso di esperti senza aumentare i parametri, e un percorso versatile in profondità che applica ricorsivamente la stessa FFN per emulare un'elaborazione più profonda per i token complessi. Un meccanismo di gating sensibile alla difficoltà bilancia dinamicamente i due pathway, indirizzando i token "semplici" attraverso il percorso efficiente in ampiezza e riservando l'approfondimento iterativo ai token "difficili". Fondamentalmente, entrambi i pathway riutilizzano gli stessi parametri, quindi ogni capacità aggiuntiva deriva dal calcolo anziché dalla memoria. Esperimenti su vari benchmark e scale di modelli dimostrano l'efficacia del metodo. Il codice sarà disponibile su https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
English
The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.