LongNet: Escalando Transformers a 1,000,000,000 de Tokens
LongNet: Scaling Transformers to 1,000,000,000 Tokens
July 5, 2023
Autores: Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Furu Wei
cs.AI
Resumen
La escalabilidad de la longitud de secuencias se ha convertido en una demanda crítica en la era de los modelos de lenguaje a gran escala. Sin embargo, los métodos existentes enfrentan dificultades ya sea con la complejidad computacional o con la expresividad del modelo, lo que restringe la longitud máxima de las secuencias. En este trabajo, presentamos LongNet, una variante del Transformer que puede escalar la longitud de secuencias a más de mil millones de tokens, sin sacrificar el rendimiento en secuencias más cortas. Específicamente, proponemos la atención dilatada, que expande el campo de atención de manera exponencial a medida que aumenta la distancia. LongNet ofrece ventajas significativas: 1) tiene una complejidad computacional lineal y una dependencia logarítmica entre tokens; 2) puede funcionar como un entrenador distribuido para secuencias extremadamente largas; 3) su atención dilatada es un reemplazo directo de la atención estándar, lo que permite su integración sin problemas con las optimizaciones existentes basadas en Transformer. Los resultados experimentales demuestran que LongNet ofrece un rendimiento sólido tanto en el modelado de secuencias largas como en tareas generales de lenguaje. Nuestro trabajo abre nuevas posibilidades para modelar secuencias muy largas, por ejemplo, tratando un corpus completo o incluso toda la Internet como una secuencia.
English
Scaling sequence length has become a critical demand in the era of large
language models. However, existing methods struggle with either computational
complexity or model expressivity, rendering the maximum sequence length
restricted. In this work, we introduce LongNet, a Transformer variant that can
scale sequence length to more than 1 billion tokens, without sacrificing the
performance on shorter sequences. Specifically, we propose dilated attention,
which expands the attentive field exponentially as the distance grows. LongNet
has significant advantages: 1) it has a linear computation complexity and a
logarithm dependency between tokens; 2) it can be served as a distributed
trainer for extremely long sequences; 3) its dilated attention is a drop-in
replacement for standard attention, which can be seamlessly integrated with the
existing Transformer-based optimization. Experiments results demonstrate that
LongNet yields strong performance on both long-sequence modeling and general
language tasks. Our work opens up new possibilities for modeling very long
sequences, e.g., treating a whole corpus or even the entire Internet as a
sequence.