Jedes Token zählt: Verallgemeinerung von 16M Ultra-Langkontext in großen Sprachmodellen
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
November 28, 2025
papers.authors: Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
cs.AI
papers.abstract
Diese Arbeit untersucht die Herausforderung, „Maschinen mit Gedächtnis“ zu entwickeln, indem Langzeitgedächtnis als Problem der effizienten Modellierung ultra-langer Kontexte formuliert wird. Wir argumentieren, dass dies drei Schlüsseleigenschaften erfordert: Sparsity, Flexibilität für wahlfreien Zugriff und Längengeneralisierung. Um die Modellierung ultra-langer Kontexte zu adressieren, nutzen wir Hierarchical Sparse Attention (HSA), einen neuartigen Aufmerksamkeitsmechanismus, der alle drei Eigenschaften erfüllt. Wir integrieren HSA in Transformer-Modelle, um HSA-UltraLong zu bauen – ein 8-Milliarden-Parameter-MoE-Modell, das mit über 8 Billionen Tokens trainiert und auf verschiedenen Aufgaben mit in-domain und out-of-domain Kontextlängen rigoros evaluiert wurde, um seine Fähigkeit im Umgang mit ultra-langen Kontexten zu demonstrieren. Die Ergebnisse zeigen, dass unser Modell auf in-domain Längen vergleichbar mit Full-Attention-Baselines abschneidet und gleichzeitig auf den meisten In-Context-Retrieval-Aufgaben bei Kontextlängen von bis zu 16 Millionen eine Genauigkeit von über 90 % erreicht. Dieser Bericht skizziert unsere experimentellen Erkenntnisse und offenen Probleme und leistet damit einen Beitrag zur Grundlage zukünftiger Forschung in der Modellierung ultra-langer Kontexte.
English
This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: sparsity, random-access flexibility, and length generalization. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.