ChatPaper.aiChatPaper

Масштабирование крупных языковых моделей на длинные контексты без обучения

Training-Free Long-Context Scaling of Large Language Models

February 27, 2024
Авторы: Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong
cs.AI

Аннотация

Способность крупных языковых моделей (LLM) обрабатывать и генерировать связный текст значительно снижается, когда количество входных токенов превышает их длину предварительного обучения. Учитывая высокую стоимость дообучения крупномасштабных моделей на более длинных последовательностях, мы предлагаем Dual Chunk Attention (DCA), который позволяет модели Llama2 70B поддерживать контекстные окна более 100 тысяч токенов без необходимости постоянного обучения. Разделяя вычисления внимания для длинных последовательностей на модули, основанные на чанках, DCA эффективно захватывает информацию о относительном положении токенов внутри одного чанка (Intra-Chunk) и между различными чанками (Inter-Chunk), а также интегрируется с Flash Attention. Помимо впечатляющей способности к экстраполяции, DCA демонстрирует производительность на практических задачах с длинным контекстом, которая сравнима или даже превосходит производительность дообученных моделей. По сравнению с проприетарными моделями, наша 70B модель, не требующая обучения, достигает 94% производительности gpt-3.5-16k, что делает её жизнеспособной открытой альтернативой. Весь код и данные, использованные в этой работе, доступны по адресу https://github.com/HKUNLP/ChunkLlama.
English
The ability of Large Language Models (LLMs) to process and generate coherent text is markedly weakened when the number of input tokens exceeds their pretraining length. Given the expensive overhead of finetuning large-scale models with longer sequences, we propose Dual Chunk Attention (DCA), which enables Llama2 70B to support context windows of more than 100k tokens without continual training. By decomposing the attention computation for long sequences into chunk-based modules, DCA manages to effectively capture the relative positional information of tokens within the same chunk (Intra-Chunk) and across distinct chunks (Inter-Chunk), as well as integrates seamlessly with Flash Attention. In addition to its impressive extrapolation capability, DCA achieves performance on practical long-context tasks that is comparable to or even better than that of finetuned models. When compared with proprietary models, our training-free 70B model attains 94% of the performance of gpt-3.5-16k, indicating it is a viable open-source alternative. All code and data used in this work are released at https://github.com/HKUNLP/ChunkLlama.
PDF254December 15, 2024