Het Schalen van Embeddings Presteert Beter dan het Schalen van Experts in Taalmodellen

Samenvatting

Hoewel Mixture-of-Experts (MoE)-architecturen de standaard zijn geworden voor het schalen van sparsiteit in grote taalmodellen, worden ze steeds vaker geconfronteerd met afnemende meeropbrengsten en systeemniveau-knelpunten. In dit werk onderzoeken we het schalen van embeddings als een krachtige, orthogonale dimensie voor het schalen van sparsiteit. Via een uitgebreide analyse en experimenten identificeren we specifieke regimes waarin embedding-schaling een superieur Pareto-front bereikt in vergelijking met expert-schaling. We karakteriseren systematisch de kritieke architectuurfactoren die deze effectiviteit bepalen – variërend van parameterbudgettering tot de wisselwerking met modelbreedte en -diepte. Bovendien zetten we, door geïntegreerde systeemoptimalisaties en *speculative decoding*, deze sparsiteit effectief om in tastbare versnellingen tijdens inferentie. Geleid door deze inzichten introduceren we LongCat-Flash-Lite, een model met 68,5B parameters waarvan ~3B geactiveerd zijn, en dat vanaf nul getraind is. Ondanks de toewijzing van meer dan 30B parameters aan embeddings, overtreft LongCat-Flash-Lite niet alleen parameter-equivalente MoE-baselines, maar vertoont het ook een uitzonderlijke concurrentiekracht ten opzichte van bestaande modellen van vergelijkbare schaal, met name in agent-gerelateerde en codeerdomeinen.

English

While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.

Het Schalen van Embeddings Presteert Beter dan het Schalen van Experts in Taalmodellen

Scaling Embeddings Outperforms Scaling Experts in Language Models

Samenvatting

Support