CLEX: Extrapolación Continua de Longitud para Modelos de Lenguaje a Gran Escala
CLEX: Continuous Length Extrapolation for Large Language Models
October 25, 2023
Autores: Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) basados en Transformers están liderando avances en muchas tareas de procesamiento de lenguaje natural. Sin embargo, sus capacidades excepcionales están limitadas por la ventana de contexto preestablecida del Transformer. Los métodos de escalado de incrustaciones posicionales (PE), aunque efectivos para extender la ventana de contexto a una longitud específica, muestran limitaciones notables en su capacidad de extrapolación o sacrifican parte del rendimiento dentro de la ventana de contexto. Los métodos de extrapolación de longitud, aunque teóricamente capaces de extender la ventana de contexto más allá de la longitud de las secuencias de entrenamiento, a menudo tienen un rendimiento inferior en aplicaciones prácticas de contexto largo. Para abordar estos desafíos, proponemos la Extrapolación Continua de Longitud (CLEX) para LLMs. Generalizamos los enfoques de escalado de PE para modelar la dinámica continua mediante ecuaciones diferenciales ordinarias sobre el factor de escalado de longitud, superando así las limitaciones de los métodos actuales de escalado de PE diseñados para longitudes específicas. Además, al extender la dinámica a longitudes de contexto deseadas más allá de la longitud de las secuencias de entrenamiento, CLEX facilita la extrapolación de longitud con un rendimiento impresionante en tareas prácticas. Demostramos que CLEX puede integrarse sin problemas en LLMs equipados con Incrustación Posicional Rotatoria, como LLaMA y GPT-NeoX, con un impacto mínimo en la latencia de entrenamiento e inferencia. Los resultados experimentales revelan que CLEX puede extender efectivamente la ventana de contexto a más de 4x o casi 8x la longitud de entrenamiento, sin deterioro en el rendimiento. Además, cuando se evalúa en el benchmark práctico LongBench, nuestro modelo entrenado con una longitud de 4k muestra un rendimiento competitivo frente a los modelos de código abierto más avanzados entrenados con longitudes de contexto de hasta 32k.
English
Transformer-based Large Language Models (LLMs) are pioneering advances in
many natural language processing tasks, however, their exceptional capabilities
are restricted within the preset context window of Transformer. Position
Embedding (PE) scaling methods, while effective in extending the context window
to a specific length, demonstrate either notable limitations in their
extrapolation abilities or sacrificing partial performance within the context
window. Length extrapolation methods, although theoretically capable of
extending the context window beyond the training sequence length, often
underperform in practical long-context applications. To address these
challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We
generalise the PE scaling approaches to model the continuous dynamics by
ordinary differential equations over the length scaling factor, thereby
overcoming the constraints of current PE scaling methods designed for specific
lengths. Moreover, by extending the dynamics to desired context lengths beyond
the training sequence length, CLEX facilitates the length extrapolation with
impressive performance in practical tasks. We demonstrate that CLEX can be
seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such
as LLaMA and GPT-NeoX, with negligible impact on training and inference
latency. Experimental results reveal that CLEX can effectively extend the
context window to over 4x or almost 8x training length, with no deterioration
in performance. Furthermore, when evaluated on the practical LongBench
benchmark, our model trained on a 4k length exhibits competitive performance
against state-of-the-art open-source models trained on context lengths up to
32k.