ChatPaper.aiChatPaper

Cada Token Cuenta: Generalización de Contextos Ultra-Largos de 16 Millones en Modelos de Lenguaje a Gran Escala

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

November 28, 2025
Autores: Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
cs.AI

Resumen

Este trabajo explora el desafío de construir "Máquinas que Pueden Recordar", enmarcando la memoria a largo plazo como el problema del modelado eficiente de contextos ultralargos. Sostenemos que esto requiere tres propiedades clave: dispersión (sparsity), flexibilidad de acceso aleatorio y generalización de longitud. Para abordar el modelado de contextos ultralargos, aprovechamos la Atención Dispersa Jerárquica (HSA), un novedoso mecanismo de atención que satisface las tres propiedades. Integramos HSA en Transformers para construir HSA-UltraLong, un modelo MoE de 8B parámetros entrenado con más de 8 billones de tokens y evaluado rigurosamente en diferentes tareas con longitudes de contexto dentro y fuera del dominio, demostrando su capacidad para manejar contextos ultralargos. Los resultados muestran que nuestro modelo tiene un rendimiento comparable a los modelos de referencia con atención completa en longitudes dentro del dominio, mientras alcanza más del 90% de precisión en la mayoría de las tareas de recuperación en contexto con extensiones de hasta 16M tokens. Este informe describe nuestras conclusiones experimentales y problemas abiertos, contribuyendo con una base para futuras investigaciones en modelado de contextos ultralargos.
English
This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: sparsity, random-access flexibility, and length generalization. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.
PDF141December 2, 2025