Elk Teken Telt: Generalisatie van 16M Ultra-Lange Context in Grote Taalmodellen
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
November 28, 2025
Auteurs: Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
cs.AI
Samenvatting
Dit werk onderzoekt de uitdaging van het bouwen van "Machines die Kunnen Onthouden", waarbij langetermijngeheugen wordt gekaderd als het probleem van efficiënte ultra-lange contextmodellering. Wij beargumenteren dat dit drie kerneigenschappen vereist: sparsiteit, flexibiliteit voor willekeurige toegang en lengtegeneralizatie. Om ultra-lange-contextmodellering aan te pakken, maken wij gebruik van Hierarchical Sparse Attention (HSA), een nieuwe aandachtmechanisme dat aan alle drie de eigenschappen voldoet. Wij integreren HSA in Transformers om HSA-UltraLong te bouwen, een 8B-parameter MoE-model getraind op meer dan 8 biljoen tokens, dat grondig wordt geëvalueerd op verschillende taken met in-domein en out-of-domein contextlengtes om zijn vermogen om ultra-lange contexten te verwerken aan te tonen. Resultaten tonen aan dat ons model vergelijkbaar presteert met full-attention-baselines op in-domein lengtes, terwijl het een nauwkeurigheid van meer dan 90% behaalt op de meeste in-context retrievaltaken met contexten tot 16M. Dit verslag schetst onze experimentele inzichten en open problemen, en draagt zo een fundament bij voor toekomstig onderzoek naar ultra-lange contextmodellering.
English
This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: sparsity, random-access flexibility, and length generalization. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.