LongNet: Escalando Transformers a 1,000,000,000 de Tokens

Resumen

La escalabilidad de la longitud de secuencias se ha convertido en una demanda crítica en la era de los modelos de lenguaje a gran escala. Sin embargo, los métodos existentes enfrentan dificultades ya sea con la complejidad computacional o con la expresividad del modelo, lo que restringe la longitud máxima de las secuencias. En este trabajo, presentamos LongNet, una variante del Transformer que puede escalar la longitud de secuencias a más de mil millones de tokens, sin sacrificar el rendimiento en secuencias más cortas. Específicamente, proponemos la atención dilatada, que expande el campo de atención de manera exponencial a medida que aumenta la distancia. LongNet ofrece ventajas significativas: 1) tiene una complejidad computacional lineal y una dependencia logarítmica entre tokens; 2) puede funcionar como un entrenador distribuido para secuencias extremadamente largas; 3) su atención dilatada es un reemplazo directo de la atención estándar, lo que permite su integración sin problemas con las optimizaciones existentes basadas en Transformer. Los resultados experimentales demuestran que LongNet ofrece un rendimiento sólido tanto en el modelado de secuencias largas como en tareas generales de lenguaje. Nuestro trabajo abre nuevas posibilidades para modelar secuencias muy largas, por ejemplo, tratando un corpus completo o incluso toda la Internet como una secuencia.

English

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence length restricted. In this work, we introduce LongNet, a Transformer variant that can scale sequence length to more than 1 billion tokens, without sacrificing the performance on shorter sequences. Specifically, we propose dilated attention, which expands the attentive field exponentially as the distance grows. LongNet has significant advantages: 1) it has a linear computation complexity and a logarithm dependency between tokens; 2) it can be served as a distributed trainer for extremely long sequences; 3) its dilated attention is a drop-in replacement for standard attention, which can be seamlessly integrated with the existing Transformer-based optimization. Experiments results demonstrate that LongNet yields strong performance on both long-sequence modeling and general language tasks. Our work opens up new possibilities for modeling very long sequences, e.g., treating a whole corpus or even the entire Internet as a sequence.

LongNet: Escalando Transformers a 1,000,000,000 de Tokens

LongNet: Scaling Transformers to 1,000,000,000 Tokens

Resumen

Support