ChatPaper.aiChatPaper

言語モデルにおける埋め込みのスケーリングは専門家のスケーリングを凌駕する

Scaling Embeddings Outperforms Scaling Experts in Language Models

January 29, 2026
著者: Hong Liu, Jiaqi Zhang, Chao Wang, Xing Hu, Linkun Lyu, Jiaqi Sun, Xurui Yang, Bo Wang, Fengcun Li, Yulei Qian, Lingtong Si, Yerui Sun, Rumei Li, Peng Pei, Yuchen Xie, Xunliang Cai
cs.AI

要旨

Mixture-of-Experts(MoE)アーキテクチャは大規模言語モデルのスパース性スケーリングにおける標準となっているが、収穫逓減とシステムレベルのボトルネックに直面することが増えている。本研究では、スパース性スケーリングのための強力かつ直交的な次元として、埋め込みのスケーリングを探求する。詳細な分析と実験を通じて、埋め込みスケーリングが専門家スケーリングよりも優れたパレートフロンティアを達成する特定の領域を特定する。パラメータ配分からモデルの幅と深さの相互作用まで、この有効性を支配する重要なアーキテクチャ要因を体系的に特徴付ける。さらに、専用のシステム最適化と投機的デコードを統合することで、このスパース性を実践的な推論高速化に効果的に変換する。これらの知見に基づき、68.5Bパラメータ(活性化パラメータは約3B)でスクラッチから学習したLongCat-Flash-Liteを提案する。30B以上のパラメータを埋め込みに割り当てているにもかかわらず、LongCat-Flash-Liteはパラメータ数が同等のMoEベースラインを上回るだけでなく、特にエージェント機能やコーディング領域において、同等規模の既存モデルに対しても卓越した競争力を示す。
English
While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.
PDF793January 31, 2026