Chaque jeton compte : généralisation d'un contexte ultra-long de 16 millions dans les grands modèles de langage
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
November 28, 2025
papers.authors: Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
cs.AI
papers.abstract
Ce travail explore le défi de construire des « Machines capables de se souvenir », en définissant la mémoire à long terme comme le problème de la modélisation efficace de contextes ultra-longs. Nous soutenons que cela nécessite trois propriétés clés : la parcimonie, la flexibilité d'accès aléatoire et la généralisation en longueur. Pour aborder la modélisation de contextes ultra-longs, nous tirons parti de l'Attention Hiérarchique Parcimonieuse (HSA), un nouveau mécanisme d'attention qui satisfait ces trois propriétés. Nous intégrons HSA dans les Transformers pour construire HSA-UltraLong, un modèle MoE de 8 milliards de paramètres entraîné sur plus de 8 billions de tokens et rigoureusement évalué sur différentes tâches avec des longueurs de contexte intra-domaines et hors-domaines pour démontrer sa capacité à gérer des contextes ultra-longs. Les résultats montrent que notre modèle obtient des performances comparables aux modèles de référence utilisant l'attention complète sur les longueurs intra-domaines, tout en atteignant une précision supérieure à 90 % sur la plupart des tâches de recherche en contexte avec des contextes allant jusqu'à 16 millions de tokens. Ce rapport présente nos conclusions expérimentales et les problèmes ouverts, contribuant à poser une base pour les futures recherches sur la modélisation de contextes ultra-longs.
English
This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: sparsity, random-access flexibility, and length generalization. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.