ДлинныйРецепт: Рецепт для Эффективной Обобщения Длинного Контекста в Больших Языковых Моделях
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models
August 31, 2024
Авторы: Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi
cs.AI
Аннотация
Большие языковые модели (LLM) сталкиваются с серьезными проблемами при выполнении задач с длинным контекстом из-за ограниченного размера эффективного окна контекста во время предварительного обучения, что ограничивает их способность к обобщению на продолжительные последовательности. В то же время расширение окна контекста в LLM через пост-предварительное обучение требует значительных ресурсов. Для решения этой проблемы мы представляем **LongRecipe**, эффективную стратегию обучения для расширения окна контекста LLM, включающую анализ влиятельных токенов, преобразование позиционного индекса и стратегии оптимизации обучения. Она моделирует входы с длинными последовательностями, сохраняя при этом эффективность обучения и значительно улучшая понимание моделью долгосрочных зависимостей. Эксперименты на трех типах LLM показывают, что LongRecipe может использовать длинные последовательности, требуя всего 30% от целевого размера окна контекста и снижая вычислительные ресурсы для обучения на более чем 85% по сравнению с обучением на полной последовательности. Более того, LongRecipe также сохраняет возможности исходной LLM в общих задачах. В конечном итоге *мы можем расширить эффективное окно контекста открытых LLM с 8k до 128k, достигая производительности, близкой к GPT-4, всего за один день специализированного обучения с использованием одного GPU с памятью 80G.* Наш код доступен по ссылке (https://github.com/zhiyuanhubj/LongRecipe).
English
Large language models (LLMs) face significant challenges in handling
long-context tasks because of their limited effective context window size
during pretraining, which restricts their ability to generalize over extended
sequences. Meanwhile, extending the context window in LLMs through
post-pretraining is highly resource-intensive. To address this, we introduce
**LongRecipe**, an efficient training strategy for extending the context window
of LLMs, including impactful token analysis, position index transformation, and
training optimization strategies. It simulates long-sequence inputs while
maintaining training efficiency and significantly improves the model's
understanding of long-range dependencies. Experiments on three types of LLMs
show that LongRecipe can utilize long sequences while requiring only 30% of the
target context window size, and reduces computational training resource over
85% compared to full sequence training. Furthermore, LongRecipe also preserves
the original LLM's capabilities in general tasks. Ultimately, *we can extend
the effective context window of open-source LLMs from 8k to 128k, achieving
performance close to GPT-4 with just one day of dedicated training using a
single GPU with 80G memory.* Our code is released at the
[link](https://github.com/zhiyuanhubj/LongRecipe).Summary
AI-Generated Summary