LongRecipe: Recept voor Efficiënte Generalisatie van Lange Contexten in Grote Taalmodellen

Samenvatting

Grote taalmmodellen (LLMs) ondervinden aanzienlijke uitdagingen bij het verwerken van taken met lange context vanwege hun beperkte effectieve contextvenstergrootte tijdens de voorafgaande training, wat hun vermogen om te generaliseren over uitgebreide sequenties beperkt. Tegelijkertijd is het uitbreiden van het contextvenster in LLMs door middel van post-training zeer resource-intensief. Om dit aan te pakken, introduceren we **LongRecipe**, een efficiënte trainingsstrategie voor het uitbreiden van het contextvenster van LLMs, inclusief impactvolle tokenanalyse, positie-index transformatie en trainingsoptimalisatiestrategieën. Het simuleert lange-sequentie-invoer terwijl de trainingsefficiëntie behouden blijft en verbetert aanzienlijk het begrip van het model van langeafhankelijkheden. Experimenten op drie soorten LLMs tonen aan dat LongRecipe lange sequenties kan benutten terwijl slechts 30% van de doelcontextvenstergrootte nodig is, en reduceert de rekenkundige trainingsbronnen met meer dan 85% vergeleken met volledige sequentietraining. Bovendien behoudt LongRecipe ook de oorspronkelijke capaciteiten van de LLM in algemene taken. Uiteindelijk *kunnen we het effectieve contextvenster van open-source LLMs uitbreiden van 8k naar 128k, waarbij we prestaties bereiken die dicht in de buurt komen van GPT-4 met slechts één dag toegewijde training met behulp van een enkele GPU met 80G geheugen.* Onze code is vrijgegeven op de [link](https://github.com/zhiyuanhubj/LongRecipe).

English

Large language models (LLMs) face significant challenges in handling long-context tasks because of their limited effective context window size during pretraining, which restricts their ability to generalize over extended sequences. Meanwhile, extending the context window in LLMs through post-pretraining is highly resource-intensive. To address this, we introduce **LongRecipe**, an efficient training strategy for extending the context window of LLMs, including impactful token analysis, position index transformation, and training optimization strategies. It simulates long-sequence inputs while maintaining training efficiency and significantly improves the model's understanding of long-range dependencies. Experiments on three types of LLMs show that LongRecipe can utilize long sequences while requiring only 30% of the target context window size, and reduces computational training resource over 85% compared to full sequence training. Furthermore, LongRecipe also preserves the original LLM's capabilities in general tasks. Ultimately, *we can extend the effective context window of open-source LLMs from 8k to 128k, achieving performance close to GPT-4 with just one day of dedicated training using a single GPU with 80G memory.* Our code is released at the [link](https://github.com/zhiyuanhubj/LongRecipe).

LongRecipe: Recept voor Efficiënte Generalisatie van Lange Contexten in Grote Taalmodellen

LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Samenvatting

Summary

Support

Support