ChatPaper.aiChatPaper

El escalado de incrustaciones supera al escalado de expertos en modelos de lenguaje

Scaling Embeddings Outperforms Scaling Experts in Language Models

January 29, 2026
Autores: Hong Liu, Jiaqi Zhang, Chao Wang, Xing Hu, Linkun Lyu, Jiaqi Sun, Xurui Yang, Bo Wang, Fengcun Li, Yulei Qian, Lingtong Si, Yerui Sun, Rumei Li, Peng Pei, Yuchen Xie, Xunliang Cai
cs.AI

Resumen

Si bien las arquitecturas Mixture-of-Experts (MoE) se han convertido en el estándar para el escalado de dispersión en modelos de lenguaje grandes, enfrentan cada vez más rendimientos decrecientes y cuellos de botella a nivel de sistema. En este trabajo, exploramos el escalado de *embeddings* como una dimensión potente y ortogonal para escalar la dispersión. Mediante un análisis exhaustivo y experimentos, identificamos regímenes específicos donde el escalado de *embeddings* logra un frente de Pareto superior en comparación con el escalado de expertos. Caracterizamos sistemáticamente los factores arquitectónicos críticos que gobiernan esta eficacia, desde la distribución de parámetros hasta la interacción con la amplitud y profundidad del modelo. Además, al integrar optimizaciones de sistema específicas y decodificación especulativa, convertimos eficazmente esta dispersión en aceleraciones tangibles de la inferencia. Guiados por estas ideas, presentamos LongCat-Flash-Lite, un modelo de 68.500 millones de parámetros con ~3.000 millones activados, entrenado desde cero. A pesar de asignar más de 30.000 millones de parámetros a los *embeddings*, LongCat-Flash-Lite no solo supera a líneas base MoE equivalentes en parámetros, sino que también exhibe una competitividad excepcional frente a modelos existentes de escala comparable, particularmente en dominios agentivos y de codificación.
English
While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.
PDF793January 31, 2026