ChatPaper.aiChatPaper

VersatileFFN: 적응적 Wide-and-Deep 재활용을 통한 LLM의 파라미터 효율성 달성

VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

December 16, 2025
저자: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang
cs.AI

초록

대규모 언어 모델(LLM)의 급속한 확장은 놀라운 성능을 달성했지만, 이로 인해 메모리 비용이 급증하는 문제도 발생시켰습니다. 기존의 매개변수 효율적 접근법(예: 가지치기, 양자화)은 주로 사전 학습된 모델을 압축하는 데 그쳐 기본 모델의 표현 능력 상한선에 한계를 보입니다. 본 연구에서는 고정된 매개변수 예산 내에서 폭과 깊이 차원 모두에서 매개변수의 유연한 재사용을 가능하게 하는 새로운 피드포워드 네트워크(FFN)인 VersatileFFN을 제안합니다. 인지의 이중 과정 이론에서 영감을 받은 VersatileFFN은 두 가지 적응형 경로로 구성됩니다: 첫째, 매개변수 증가 없이 희소 전문가 라우팅을 모방하여 단일 공유 FFN에서 하위 전문가 혼합을 생성하는 폭 가변 경로, 둘째, 복잡한 토큰에 대해 더 깊은 처리를 모방하기 위해 동일한 FFN을 재귀적으로 적용하는 깊이 가변 경로입니다. 난이도 인식 게이팅은 두 경로를 동적으로 균형 잡아, "쉬운" 토큰은 효율적인 폭 방향 경로로 유도하고 "어려운" 토큰에는 더 깊은 반복적 정교화를 할당합니다. 중요한 것은 두 경로 모두 동일한 매개변수를 재사용하므로 모든 추가 능력은 메모리가 아닌 계산에서 비롯된다는 점입니다. 다양한 벤치마크와 모델 규모에서의 실험을 통해 이 방법의 효과성을 입증하였습니다. 코드는 https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN에서 공개될 예정입니다.
English
The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
PDF102December 18, 2025