LM-Infinite: Простое динамическое обобщение длины для больших языковых моделей
LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models
August 30, 2023
Авторы: Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang
cs.AI
Аннотация
В последние годы наблюдаются значительные успехи в производительности крупных языковых моделей (LLM), основанных на архитектуре Transformer, в различных областях. По мере того как эти LLM применяются для решения всё более сложных задач, они часто сталкиваются с необходимостью проводить более длительные процессы рассуждений или понимать более обширные контексты. В таких ситуациях проблема обобщения на длинные последовательности у LLM становится более заметной. Большинство схем предварительного обучения усекают обучающие последовательности до фиксированной длины (например, 2048 для LLaMa). LLM часто испытывают трудности с генерацией связного текста, не говоря уже о выполнении задач, после более длинных контекстов, даже при использовании относительного позиционного кодирования, которое разработано для решения этой проблемы. Распространённые решения, такие как дообучение на более длинных корпусах, часто требуют значительных затрат на оборудование и время, а также тщательной разработки процесса обучения. Чтобы более эффективно использовать генеративные способности существующих LLM, мы теоретически и эмпирически исследуем основные факторы, связанные с выходом за пределы распределения (OOD), которые способствуют этой проблеме. Вдохновлённые этим анализом, мы предлагаем простое, но эффективное решение для обобщения на длинные последовательности на лету — LM-Infinite, которое включает только маску внимания в форме лямбды и ограничение по расстоянию, не требуя обновления параметров или обучения. Мы обнаружили, что оно применимо к различным LLM, использующим методы относительного позиционного кодирования. LM-Infinite вычислительно эффективен с временной и пространственной сложностью O(n) и демонстрирует стабильную связность и качество генерации на последовательностях длиной до 32 тысяч токенов на наборах данных ArXiv и OpenWebText2, с ускорением декодирования в 2.72 раза. На задачах, таких как извлечение ключевой информации, он продолжает работать на входах, значительно превышающих длину обучающих последовательностей, где стандартные модели терпят неудачу сразу же.
English
In recent years, there have been remarkable advancements in the performance
of Transformer-based Large Language Models (LLMs) across various domains. As
these LLMs are deployed for increasingly complex tasks, they often face the
needs to conduct longer reasoning processes or understanding larger contexts.
In these situations, the length generalization failure of LLMs on long
sequences become more prominent. Most pre-training schemes truncate training
sequences to a fixed length (such as 2048 for LLaMa). LLMs often struggle to
generate fluent texts, let alone carry out downstream tasks, after longer
contexts, even with relative positional encoding which is designed to cope with
this problem. Common solutions such as finetuning on longer corpora often
involves daunting hardware and time costs and requires careful training process
design. To more efficiently leverage the generation capacity of existing LLMs,
we theoretically and empirically investigate the main out-of-distribution (OOD)
factors contributing to this problem. Inspired by this diagnosis, we propose a
simple yet effective solution for on-the-fly length generalization,
LM-Infinite, which involves only a Lambda-shaped attention mask and a
distance limit while requiring no parameter updates or learning. We find it
applicable to a variety of LLMs using relative-position encoding methods.
LM-Infinite is computational efficient with O(n) time and space, and
demonstrates consistent fluency and generation quality to as long as 32k tokens
on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream
task such as passkey retrieval, it continues to work on inputs much longer than
training lengths where vanilla models fail immediately.