ChatPaper.aiChatPaper

Skalieren von Embeddings übertrifft Skalieren von Experten in Sprachmodellen

Scaling Embeddings Outperforms Scaling Experts in Language Models

January 29, 2026
papers.authors: Hong Liu, Jiaqi Zhang, Chao Wang, Xing Hu, Linkun Lyu, Jiaqi Sun, Xurui Yang, Bo Wang, Fengcun Li, Yulei Qian, Lingtong Si, Yerui Sun, Rumei Li, Peng Pei, Yuchen Xie, Xunliang Cai
cs.AI

papers.abstract

Während Mixture-of-Experts (MoE)-Architekturen zum Standard für sparsames Skalieren großer Sprachmodelle geworden sind, sehen sie sich zunehmend mit abnehmenden Grenzerträgen und Systemengpässen konfrontiert. In dieser Arbeit untersuchen wir die Skalierung von Embeddings als eine wirksame, orthogonale Dimension zur Skalierung von Sparsamkeit. Durch eine umfassende Analyse und Experimente identifizieren wir spezifische Bereiche, in denen die Skalierung von Embeddings eine überlegene Pareto-Grenze im Vergleich zur Expert-Skalierung erreicht. Wir charakterisieren systematisch die kritischen architektonischen Faktoren, die diese Wirksamkeit bestimmen – von der Parameterbudgetierung bis zum Zusammenspiel mit Modellbreite und -tiefe. Darüber hinaus setzen wir durch die Integration maßgeschneiderter Systemoptimierungen und spekulativer Dekodierung diese Sparsamkeit effektiv in greifbare Beschleunigungen bei der Inferenz um. Angeleitet durch diese Erkenntnisse stellen wir LongCat-Flash-Lite vor, ein Modell mit 68,5B Parametern und ~3B aktivierten Parametern, das von Grund auf trainiert wurde. Obwohl über 30B Parameter für Embeddings reserviert sind, übertrifft LongCat-Flash-Lite nicht nur parameteräquivalente MoE-Baselines, sondern zeigt auch eine außergewöhnliche Wettbewerbsfähigkeit gegenüber bestehenden Modellen vergleichbarer Größe, insbesondere in agentenbasierten und Programmierdomänen.
English
While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.
PDF793January 31, 2026