LongRecipe: Recept voor Efficiënte Generalisatie van Lange Contexten in Grote Taalmodellen
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models
August 31, 2024
Auteurs: Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) ondervinden aanzienlijke uitdagingen bij het verwerken van taken met lange context vanwege hun beperkte effectieve contextvenstergrootte tijdens de voorafgaande training, wat hun vermogen om te generaliseren over uitgebreide sequenties beperkt. Tegelijkertijd is het uitbreiden van het contextvenster in LLMs door middel van post-training zeer resource-intensief. Om dit aan te pakken, introduceren we **LongRecipe**, een efficiënte trainingsstrategie voor het uitbreiden van het contextvenster van LLMs, inclusief impactvolle tokenanalyse, positie-index transformatie en trainingsoptimalisatiestrategieën. Het simuleert lange-sequentie-invoer terwijl de trainingsefficiëntie behouden blijft en verbetert aanzienlijk het begrip van het model van langeafhankelijkheden. Experimenten op drie soorten LLMs tonen aan dat LongRecipe lange sequenties kan benutten terwijl slechts 30% van de doelcontextvenstergrootte nodig is, en reduceert de rekenkundige trainingsbronnen met meer dan 85% vergeleken met volledige sequentietraining. Bovendien behoudt LongRecipe ook de oorspronkelijke capaciteiten van de LLM in algemene taken. Uiteindelijk *kunnen we het effectieve contextvenster van open-source LLMs uitbreiden van 8k naar 128k, waarbij we prestaties bereiken die dicht in de buurt komen van GPT-4 met slechts één dag toegewijde training met behulp van een enkele GPU met 80G geheugen.* Onze code is vrijgegeven op de [link](https://github.com/zhiyuanhubj/LongRecipe).
English
Large language models (LLMs) face significant challenges in handling
long-context tasks because of their limited effective context window size
during pretraining, which restricts their ability to generalize over extended
sequences. Meanwhile, extending the context window in LLMs through
post-pretraining is highly resource-intensive. To address this, we introduce
**LongRecipe**, an efficient training strategy for extending the context window
of LLMs, including impactful token analysis, position index transformation, and
training optimization strategies. It simulates long-sequence inputs while
maintaining training efficiency and significantly improves the model's
understanding of long-range dependencies. Experiments on three types of LLMs
show that LongRecipe can utilize long sequences while requiring only 30% of the
target context window size, and reduces computational training resource over
85% compared to full sequence training. Furthermore, LongRecipe also preserves
the original LLM's capabilities in general tasks. Ultimately, *we can extend
the effective context window of open-source LLMs from 8k to 128k, achieving
performance close to GPT-4 with just one day of dedicated training using a
single GPU with 80G memory.* Our code is released at the
[link](https://github.com/zhiyuanhubj/LongRecipe).Summary
AI-Generated Summary