ChatPaper.aiChatPaper

VersatileFFN: Logro de eficiencia de parámetros en LLMs mediante reutilización adaptativa ancho-y-profundo

VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

December 16, 2025
Autores: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang
cs.AI

Resumen

La rápida escalada de los Modelos de Lenguaje a Gran Escala (LLM) ha logrado un rendimiento notable, pero también conlleva costos de memoria prohibitivos. Los enfoques existentes de eficiencia de parámetros, como la poda y la cuantización, comprimen principalmente los modelos preentrenados sin mejorar la capacidad arquitectónica, alcanzando así el límite representacional del modelo base. En este trabajo, proponemos VersatileFFN, una red neuronal de avance (FFN) novedosa que permite la reutilización flexible de parámetros en las dimensiones de anchura y profundidad dentro de un presupuesto fijo de parámetros. Inspirado por la teoría del proceso dual de la cognición, VersatileFFN comprende dos rutas adaptativas: una ruta versátil en anchura que genera una mezcla de sub-expertos a partir de una única FFN compartida, imitando el enrutamiento de expertos dispersos sin aumentar los parámetros, y una ruta versátil en profundidad que aplica recursivamente la misma FFN para emular un procesamiento más profundo para tokens complejos. Un mecanismo de compuerta consciente de la dificultad equilibra dinámicamente las dos rutas, dirigiendo los tokens "fáciles" a través de la ruta eficiente en anchura y asignando un refinamiento iterativo más profundo a los tokens "difíciles". Crucialmente, ambas rutas reutilizan los mismos parámetros, por lo que toda la capacidad adicional proviene del cómputo y no de la memoria. Los experimentos en diversos benchmarks y escalas de modelos demuestran la efectividad del método. El código estará disponible en https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
English
The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
PDF102December 18, 2025