ChatPaper.aiChatPaper

임베딩 확장이 전문가 확장을 능가하는 언어 모델

Scaling Embeddings Outperforms Scaling Experts in Language Models

January 29, 2026
저자: Hong Liu, Jiaqi Zhang, Chao Wang, Xing Hu, Linkun Lyu, Jiaqi Sun, Xurui Yang, Bo Wang, Fengcun Li, Yulei Qian, Lingtong Si, Yerui Sun, Rumei Li, Peng Pei, Yuchen Xie, Xunliang Cai
cs.AI

초록

혼합 전문가(MoE) 아키텍처가 대규모 언어 모델의 희소성 확장을 위한 표준으로 자리 잡았지만, 점차 한계 수익 체감과 시스템 수준의 병목 현상에 직면하고 있습니다. 본 연구에서는 희소성 확장을 위한 강력하고 직교적인 차원으로 임베딩 확장을 탐구합니다. 포괄적인 분석과 실험을 통해 전문가 확장 대비 임베딩 확장이 더 우수한 파레토 최적을 달성하는 특정 영역을 규명합니다. 매개변수 예산 책정부터 모델 너비 및 깊이와의 상호작용에 이르기까지, 이러한 효과를 지배하는 중요한 아키텍처 요인들을 체계적으로 분석합니다. 더 나아가 맞춤형 시스템 최적화와 스펙훼티브 디코딩을 통합하여 이러한 희소성을 실제 추론 속도 향상으로 효과적으로 전환합니다. 이러한 통찰력을 바탕으로 약 30억 개의 활성화 매개변수를 가지며 처음부터 훈련된 685억 개 매개변수 규모의 LongCat-Flash-Lite 모델을 소개합니다. 300억 개 이상의 매개변수를 임베딩에 할당했음에도 불구하고, LongCat-Flash-Lite는 매개변수 규모가 동등한 MoE 기준 모델을 능가할 뿐만 아니라, 특히 에이전트 및 코딩 영역에서 동급 규모의 기존 모델들과 비교해도 탁월한 경쟁력을 보여줍니다.
English
While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.
PDF793January 31, 2026