Каждый токен имеет значение: обобщение контекста длиной до 16 миллионов токенов в больших языковых моделях
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
November 28, 2025
Авторы: Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
cs.AI
Аннотация
Данная работа исследует задачу создания «Машин, которые могут помнить», формулируя долговременную память как проблему эффективного моделирования сверхдлинного контекста. Мы утверждаем, что для этого необходимы три ключевых свойства: разреженность, гибкость произвольного доступа и обобщение на большую длину. Для решения задачи моделирования сверхдлинного контекста мы используем Иерархическую Разреженную Внимание (HSA) — новый механизм внимания, удовлетворяющий всем трём свойствам. Мы интегрируем HSA в архитектуру Transformers, создавая HSA-UltraLong, — 8-миллиардную MoE-модель, обученную на более чем 8 триллионах токенов, которая проходит тщательную оценку на различных задачах с внутридоменными и внедоменными длинами контекста для демонстрации её способности работать со сверхдлинными контекстами. Результаты показывают, что наша модель демонстрирует производительность, сопоставимую с базовыми моделями с полным вниманием на внутридоменных длинах, при этом достигая точности свыше 90% на большинстве задач извлечения информации в контексте при длинах контекста до 16 миллионов токенов. В данном отчёте излагаются наши экспериментальные инсайты и нерешённые проблемы, внося вклад в основу для будущих исследований в области моделирования сверхдлинного контекста.
English
This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: sparsity, random-access flexibility, and length generalization. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.