Aumento de Embeddings Supera o Aumento de Especialistas em Modelos de Linguagem

Resumo

Embora as arquiteturas de Mistura de Especialistas (MoE) tenham se tornado o padrão para escalonamento de esparsidade em modelos de linguagem grandes, elas enfrentam crescentemente retornos decrescentes e gargalos em nível de sistema. Neste trabalho, exploramos o escalonamento de embeddings como uma dimensão ortogonal e potente para escalonar a esparsidade. Por meio de uma análise abrangente e experimentos, identificamos regimes específicos onde o escalonamento de embeddings alcança uma fronteira de Pareto superior em comparação com o escalonamento de especialistas. Caracterizamos sistematicamente os fatores arquiteturais críticos que governam essa eficácia – desde o orçamento de parâmetros até a interação com a largura e profundidade do modelo. Além disso, ao integrar otimizações de sistema personalizadas e decodificação especulativa, convertemos efetivamente essa esparsidade em acelerações tangíveis de inferência. Guiados por esses insights, introduzimos o LongCat-Flash-Lite, um modelo de 68,5B de parâmetros com ~3B ativados, treinado do zero. Apesar de alocar mais de 30B de parâmetros para embeddings, o LongCat-Flash-Lite não apenas supera linhas de base MoE equivalentes em parâmetros, mas também exibe competitividade excepcional contra modelos existentes de escala comparável, particularmente em domínios de agentes e codificação.

English

While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.

Aumento de Embeddings Supera o Aumento de Especialistas em Modelos de Linguagem

Scaling Embeddings Outperforms Scaling Experts in Language Models

Resumo

Support