ChatPaper.aiChatPaper

Escalado de Contexto Largo sin Entrenamiento para Modelos de Lenguaje de Gran Escala

Training-Free Long-Context Scaling of Large Language Models

February 27, 2024
Autores: Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong
cs.AI

Resumen

La capacidad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para procesar y generar texto coherente se ve notablemente debilitada cuando el número de tokens de entrada supera su longitud de preentrenamiento. Dado el costoso esfuerzo requerido para ajustar modelos a gran escala con secuencias más largas, proponemos la Atención Dual por Fragmentos (DCA, por sus siglas en inglés), que permite a Llama2 70B admitir ventanas de contexto de más de 100k tokens sin necesidad de entrenamiento continuo. Al descomponer el cálculo de atención para secuencias largas en módulos basados en fragmentos, DCA logra capturar eficazmente la información posicional relativa de los tokens dentro del mismo fragmento (Intra-Fragmento) y entre distintos fragmentos (Inter-Fragmento), además de integrarse perfectamente con Flash Attention. Además de su impresionante capacidad de extrapolación, DCA alcanza un rendimiento en tareas prácticas de contexto largo que es comparable o incluso superior al de los modelos ajustados. En comparación con modelos propietarios, nuestro modelo de 70B sin entrenamiento adicional alcanza el 94% del rendimiento de gpt-3.5-16k, lo que indica que es una alternativa de código abierto viable. Todo el código y los datos utilizados en este trabajo están disponibles en https://github.com/HKUNLP/ChunkLlama.
English
The ability of Large Language Models (LLMs) to process and generate coherent text is markedly weakened when the number of input tokens exceeds their pretraining length. Given the expensive overhead of finetuning large-scale models with longer sequences, we propose Dual Chunk Attention (DCA), which enables Llama2 70B to support context windows of more than 100k tokens without continual training. By decomposing the attention computation for long sequences into chunk-based modules, DCA manages to effectively capture the relative positional information of tokens within the same chunk (Intra-Chunk) and across distinct chunks (Inter-Chunk), as well as integrates seamlessly with Flash Attention. In addition to its impressive extrapolation capability, DCA achieves performance on practical long-context tasks that is comparable to or even better than that of finetuned models. When compared with proprietary models, our training-free 70B model attains 94% of the performance of gpt-3.5-16k, indicating it is a viable open-source alternative. All code and data used in this work are released at https://github.com/HKUNLP/ChunkLlama.
PDF254December 15, 2024