ChatPaper.aiChatPaper

RecetaLarga: Receta para la Generalización Eficiente de Contextos Largos en Modelos de Lenguaje Grandes

LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

August 31, 2024
Autores: Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) enfrentan desafíos significativos al manejar tareas de largo contexto debido al tamaño limitado de la ventana de contexto efectiva durante el preentrenamiento, lo cual restringe su capacidad de generalizar sobre secuencias extensas. Mientras tanto, extender la ventana de contexto en LLMs a través de post-preentrenamiento es altamente intensivo en recursos. Para abordar esto, presentamos **LongRecipe**, una estrategia eficiente de entrenamiento para extender la ventana de contexto de LLMs, que incluye un análisis de tokens impactante, transformación de índices de posición y estrategias de optimización de entrenamiento. Simula entradas de secuencias largas manteniendo la eficiencia de entrenamiento y mejora significativamente la comprensión del modelo de dependencias a largo plazo. Experimentos en tres tipos de LLMs muestran que LongRecipe puede utilizar secuencias largas mientras requiere solo el 30% del tamaño de la ventana de contexto objetivo, y reduce los recursos computacionales de entrenamiento en más del 85% en comparación con el entrenamiento de secuencia completa. Además, LongRecipe también conserva las capacidades originales del LLM en tareas generales. En última instancia, *podemos extender la ventana de contexto efectiva de los LLMs de código abierto de 8k a 128k, logrando un rendimiento cercano al de GPT-4 con solo un día de entrenamiento dedicado utilizando una sola GPU con 80G de memoria.* Nuestro código está disponible en el [enlace](https://github.com/zhiyuanhubj/LongRecipe).
English
Large language models (LLMs) face significant challenges in handling long-context tasks because of their limited effective context window size during pretraining, which restricts their ability to generalize over extended sequences. Meanwhile, extending the context window in LLMs through post-pretraining is highly resource-intensive. To address this, we introduce **LongRecipe**, an efficient training strategy for extending the context window of LLMs, including impactful token analysis, position index transformation, and training optimization strategies. It simulates long-sequence inputs while maintaining training efficiency and significantly improves the model's understanding of long-range dependencies. Experiments on three types of LLMs show that LongRecipe can utilize long sequences while requiring only 30% of the target context window size, and reduces computational training resource over 85% compared to full sequence training. Furthermore, LongRecipe also preserves the original LLM's capabilities in general tasks. Ultimately, *we can extend the effective context window of open-source LLMs from 8k to 128k, achieving performance close to GPT-4 with just one day of dedicated training using a single GPU with 80G memory.* Our code is released at the [link](https://github.com/zhiyuanhubj/LongRecipe).

Summary

AI-Generated Summary

PDF422November 16, 2024