LongRoPE: Расширение контекстного окна языковых моделей за пределы 2 миллионов токеновLongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
Большое окно контекста является желательной характеристикой для крупных языковых моделей (LLM). Однако из-за высоких затрат на тонкую настройку, дефицита длинных текстов и катастрофических значений, вносимых новыми позициями токенов, текущие расширенные окна контекста ограничены примерно 128 тысячами токенов. В данной статье представлен метод LongRoPE, который впервые расширяет окно контекста предварительно обученных LLM до впечатляющих 2048 тысяч токенов, используя всего до 1 тысячи шагов тонкой настройки на длинах обучения до 256 тысяч токенов, при этом сохраняя производительность на исходном коротком окне контекста. Это достигается за счет трех ключевых инноваций: (i) мы выявляем и используем две формы неоднородностей в позиционной интерполяции с помощью эффективного поиска, что обеспечивает лучшее начальное приближение для тонкой настройки и позволяет увеличить окно контекста в 8 раз без тонкой настройки; (ii) мы вводим стратегию прогрессивного расширения, которая сначала тонко настраивает LLM на длине 256 тысяч токенов, а затем проводит вторую позиционную интерполяцию на расширенной LLM для достижения окна контекста в 2048 тысяч токенов; (iii) мы корректируем LongRoPE на длине 8 тысяч токенов для восстановления производительности на коротком окне контекста. Многочисленные эксперименты на моделях LLaMA2 и Mistral в различных задачах демонстрируют эффективность нашего метода. Модели, расширенные с помощью LongRoPE, сохраняют исходную архитектуру с незначительными изменениями в позиционных эмбеддингах и могут повторно использовать большинство существующих оптимизаций.