Масштабирование эмбеддингов превосходит масштабирование экспертов в языковых моделях
Scaling Embeddings Outperforms Scaling Experts in Language Models
January 29, 2026
Авторы: Hong Liu, Jiaqi Zhang, Chao Wang, Xing Hu, Linkun Lyu, Jiaqi Sun, Xurui Yang, Bo Wang, Fengcun Li, Yulei Qian, Lingtong Si, Yerui Sun, Rumei Li, Peng Pei, Yuchen Xie, Xunliang Cai
cs.AI
Аннотация
Хотя архитектуры смеси экспертов (MoE) стали стандартом для масштабирования разреженности в больших языковых моделях, они все чаще сталкиваются с уменьшающейся отдачей и системными узкими местами. В данной работе мы исследуем масштабирование эмбеддингов как мощное, ортогональное направление для масштабирования разреженности. Посредством всестороннего анализа и экспериментов мы выявляем конкретные режимы, в которых масштабирование эмбеддингов достигает более высокой границы Парето по сравнению с масштабированием экспертов. Мы систематически характеризуем ключевые архитектурные факторы, определяющие эту эффективность — от распределения параметров до взаимодействия с шириной и глубиной модели. Более того, интегрируя специализированные системные оптимизации и спекулятивный декодинг, мы эффективно преобразуем эту разреженность в реальное ускорение вывода. Руководствуясь этими инсайтами, мы представляем LongCat-Flash-Lite — модель с 68.5 млрд параметров, из которых активируется ~3 млрд, обученную с нуля. Несмотря на выделение свыше 30 млрд параметров под эмбеддинги, LongCat-Flash-Lite не только превосходит MoE-базисы с эквивалентным количеством параметров, но и демонстрирует исключительную конкурентоспособность по сравнению с существующими моделями сопоставимого масштаба, особенно в агентских и кодовых областях.
English
While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.