ChatPaper.aiChatPaper

L'augmentation de la dimension des embeddings surpasse l'ajout d'experts dans les modèles de langage

Scaling Embeddings Outperforms Scaling Experts in Language Models

January 29, 2026
papers.authors: Hong Liu, Jiaqi Zhang, Chao Wang, Xing Hu, Linkun Lyu, Jiaqi Sun, Xurui Yang, Bo Wang, Fengcun Li, Yulei Qian, Lingtong Si, Yerui Sun, Rumei Li, Peng Pei, Yuchen Xie, Xunliang Cai
cs.AI

papers.abstract

Alors que les architectures Mixture-of-Experts (MoE) sont devenues la norme pour la mise à l'échelle par sparseité des grands modèles de langage, elles sont confrontées à des rendements décroissants et à des goulots d'étranglement systémiques. Dans ce travail, nous explorons la mise à l'échelle des embeddings comme une dimension orthogonale et puissante pour augmenter la sparseité. Par une analyse approfondie et des expériences, nous identifions des régimes spécifiques où la mise à l'échelle des embeddings atteint une frontière de Pareto supérieure à celle de la mise à l'échelle des experts. Nous caractérisons systématiquement les facteurs architecturaux critiques qui gouvernent cette efficacité – allant de la répartition des paramètres à l'interaction avec la largeur et la profondeur du modèle. De plus, en intégrant des optimisations système sur mesure et un décodage spéculatif, nous convertissons efficacement cette sparseité en accélérations tangibles de l'inférence. Guidés par ces insights, nous présentons LongCat-Flash-Lite, un modèle de 68,5 milliards de paramètres avec environ 3 milliards de paramètres activés, entraîné à partir de zéro. Bien qu'il alloue plus de 30 milliards de paramètres aux embeddings, LongCat-Flash-Lite surpasse non seulement les modèles de référence MoE équivalents en paramètres, mais démontre aussi une compétitivité exceptionnelle face aux modèles existants d'échelle comparable, particulièrement dans les domaines agentiques et du codage.
English
While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.
PDF793January 31, 2026