ChatPaper.aiChatPaper

Ogni Token Conta: Generalizzazione di Contesti Ultra-Lungi da 16M nei Grandi Modelli Linguistici

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

November 28, 2025
Autori: Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
cs.AI

Abstract

Questo lavoro esplora la sfida di costruire "Macchine che Possono Ricordare", inquadrando la memoria a lungo termine come il problema della modellazione efficiente di contesti ultra-lunghi. Sosteniamo che ciò richieda tre proprietà fondamentali: sparsità, flessibilità di accesso casuale e generalizzazione della lunghezza. Per affrontare la modellazione di contesti ultra-lunghi, sfruttiamo l'Attenzione Sparsa Gerarchica (HSA), un nuovo meccanismo di attenzione che soddisfa tutte e tre le proprietà. Integriamo HSA nei Transformer per costruire HSA-UltraLong, un modello MoE da 8 miliardi di parametri addestrato su oltre 8 trilioni di token e valutato rigorosamente su diversi compiti con lunghezze di contesto in-dominio e out-of-dominio per dimostrare la sua capacità di gestire contesti ultra-lunghi. I risultati mostrano che il nostro modello performa in modo comparabile ai baseline con attenzione completa su lunghezze in-dominio, raggiungendo oltre il 90% di accuratezza sulla maggior parte dei compiti di retrieval in-contexto con contesti fino a 16 milioni di token. Questo rapporto delinea le nostre intuizioni sperimentali e i problemi aperti, contribuendo a gettare le basi per la ricerca futura nella modellazione di contesti ultra-lunghi.
English
This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: sparsity, random-access flexibility, and length generalization. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.
PDF141December 2, 2025