CLEX: Непрерывная экстраполяция длины для больших языковых моделей
CLEX: Continuous Length Extrapolation for Large Language Models
October 25, 2023
Авторы: Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
cs.AI
Аннотация
Трансформерные модели больших языковых моделей (LLM) являются пионерскими достижениями во многих задачах обработки естественного языка, однако их исключительные возможности ограничены предустановленным контекстным окном трансформера. Методы масштабирования позиционных эмбеддингов (PE), хотя и эффективны в расширении контекстного окна до определенной длины, демонстрируют либо заметные ограничения в их способности к экстраполяции, либо жертвуют частью производительности в пределах контекстного окна. Методы экстраполяции длины, хотя теоретически способны расширить контекстное окно за пределы длины обучающей последовательности, часто показывают низкую эффективность в практических задачах с длинным контекстом. Для решения этих проблем мы предлагаем метод Continuous Length EXtrapolation (CLEX) для LLM. Мы обобщаем подходы масштабирования PE, моделируя непрерывную динамику с помощью обыкновенных дифференциальных уравнений по фактору масштабирования длины, тем самым преодолевая ограничения текущих методов масштабирования PE, разработанных для конкретных длин. Более того, расширяя динамику до желаемых длин контекста, превышающих длину обучающей последовательности, CLEX способствует экстраполяции длины с впечатляющей производительностью в практических задачах. Мы демонстрируем, что CLEX может быть легко интегрирован в LLM, оснащенные Rotary Position Embedding, такие как LLaMA и GPT-NeoX, с минимальным влиянием на задержки обучения и вывода. Экспериментальные результаты показывают, что CLEX может эффективно расширять контекстное окно до более чем 4x или почти 8x длины обучения без ухудшения производительности. Кроме того, при оценке на практическом бенчмарке LongBench наша модель, обученная на длине 4k, демонстрирует конкурентоспособную производительность по сравнению с передовыми открытыми моделями, обученными на длинах контекста до 32k.
English
Transformer-based Large Language Models (LLMs) are pioneering advances in
many natural language processing tasks, however, their exceptional capabilities
are restricted within the preset context window of Transformer. Position
Embedding (PE) scaling methods, while effective in extending the context window
to a specific length, demonstrate either notable limitations in their
extrapolation abilities or sacrificing partial performance within the context
window. Length extrapolation methods, although theoretically capable of
extending the context window beyond the training sequence length, often
underperform in practical long-context applications. To address these
challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We
generalise the PE scaling approaches to model the continuous dynamics by
ordinary differential equations over the length scaling factor, thereby
overcoming the constraints of current PE scaling methods designed for specific
lengths. Moreover, by extending the dynamics to desired context lengths beyond
the training sequence length, CLEX facilitates the length extrapolation with
impressive performance in practical tasks. We demonstrate that CLEX can be
seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such
as LLaMA and GPT-NeoX, with negligible impact on training and inference
latency. Experimental results reveal that CLEX can effectively extend the
context window to over 4x or almost 8x training length, with no deterioration
in performance. Furthermore, when evaluated on the practical LongBench
benchmark, our model trained on a 4k length exhibits competitive performance
against state-of-the-art open-source models trained on context lengths up to
32k.