VersatileFFN: Alcançando Eficiência de Parâmetros em LLMs por meio de Reutilização Adaptativa Wide-and-Deep

Resumo

A rápida escalagem de Large Language Models (LLMs) tem alcançado desempenho notável, mas também leva a custos de memória proibitivos. As abordagens existentes de eficiência de parâmetros, como poda e quantização, comprimem principalmente modelos pré-treinados sem aumentar a capacidade arquitetônica, atingindo assim o limite representacional do modelo base. Neste trabalho, propomos o VersatileFFN, uma nova rede feed-forward (FFN) que permite a reutilização flexível de parâmetros nas dimensões de largura e profundidade dentro de um orçamento fixo de parâmetros. Inspirado pela teoria de processo duplo da cognição, o VersatileFFN compreende dois caminhos adaptativos: um caminho versátil em largura que gera uma mistura de subespecialistas a partir de uma única FFN compartilhada, mimetizando o roteamento esparso de especialistas sem aumentar parâmetros, e um caminho versátil em profundidade que aplica recursivamente a mesma FFN para emular processamento mais profundo para tokens complexos. Um mecanismo de gateamento consciente da dificuldade equilibra dinamicamente os dois caminhos, direcionando tokens "fáceis" pela rota eficiente em largura e alocando refinamento iterativo mais profundo para tokens "difíceis". Crucialmente, ambos os caminhos reutilizam os mesmos parâmetros, portanto toda capacidade adicional vem da computação, não da memória. Experimentos em diversos benchmarks e escalas de modelo demonstram a eficácia do método. O código estará disponível em https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.

English

The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.

VersatileFFN: Alcançando Eficiência de Parâmetros em LLMs por meio de Reutilização Adaptativa Wide-and-Deep

VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

Resumo

Support