あらゆるトークンが重要:大規模言語モデルにおける1,600万トークンの超長文脈の一般化
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
November 28, 2025
著者: Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
cs.AI
要旨
本論文は、「記憶できる機械」の構築という課題に取り組み、長期記憶を効率的な超長文脈モデリングの問題として捉え直す。我々は、これには疎性、ランダムアクセス性、長さ一般化という3つの重要な特性が必要であると論じる。超長文脈モデリングに対処するため、これら3特性を全て満たす新しい注意機構である階層的疎性注意(HSA)を活用する。HSAをTransformerに統合し、HSA-UltraLongを構築した。これは80億パラメータのMoEモデルであり、8兆以上のトークンで学習され、ドメイン内およびドメイン外の様々な文脈長タスクで厳密に評価され、超長文脈処理能力を実証する。結果は、本モデルがドメイン内長では完全注意ベースラインと同等の性能を発揮しつつ、最大1600万トークンの文脈を用いたインコンテキスト検索タスクの大半で90%超の精度を達成することを示す。本報告は実験から得られた知見と未解決問題を概説し、超長文脈モデリングの将来研究への基盤を提供する。
English
This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: sparsity, random-access flexibility, and length generalization. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.