ChatPaper.aiChatPaper

RicettaLunga: Ricetta per una Generalizzazione Efficientemente Lunga del Contesto in Modelli di Lingua di Grandi Dimensioni

LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

August 31, 2024
Autori: Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) affrontano significativi problemi nel gestire compiti a lungo contesto a causa della limitata dimensione efficace della finestra di contesto durante la preformazione, che limita la loro capacità di generalizzare su sequenze estese. Nel frattempo, estendere la finestra di contesto nei LLM attraverso la post-preformazione è molto dispendioso in termini di risorse. Per affrontare questo problema, introduciamo **LongRecipe**, una strategia di addestramento efficiente per estendere la finestra di contesto dei LLM, che include un'analisi di token di impatto, una trasformazione dell'indice di posizione e strategie di ottimizzazione dell'addestramento. Essa simula input di sequenze lunghe mantenendo l'efficienza dell'addestramento e migliorando significativamente la comprensione del modello sulle dipendenze a lungo raggio. Gli esperimenti condotti su tre tipi di LLM mostrano che LongRecipe può utilizzare sequenze lunghe richiedendo solo il 30% della dimensione della finestra di contesto desiderata, riducendo le risorse computazionali necessarie per l'addestramento di oltre l'85% rispetto all'addestramento con sequenze complete. Inoltre, LongRecipe preserva anche le capacità originali dei LLM in compiti generali. In definitiva, *possiamo estendere la finestra di contesto efficace dei LLM open-source da 8k a 128k, ottenendo prestazioni simili a quelle di GPT-4 con un solo giorno di addestramento dedicato utilizzando una singola GPU con 80G di memoria.* Il nostro codice è disponibile al seguente [link](https://github.com/zhiyuanhubj/LongRecipe).
English
Large language models (LLMs) face significant challenges in handling long-context tasks because of their limited effective context window size during pretraining, which restricts their ability to generalize over extended sequences. Meanwhile, extending the context window in LLMs through post-pretraining is highly resource-intensive. To address this, we introduce **LongRecipe**, an efficient training strategy for extending the context window of LLMs, including impactful token analysis, position index transformation, and training optimization strategies. It simulates long-sequence inputs while maintaining training efficiency and significantly improves the model's understanding of long-range dependencies. Experiments on three types of LLMs show that LongRecipe can utilize long sequences while requiring only 30% of the target context window size, and reduces computational training resource over 85% compared to full sequence training. Furthermore, LongRecipe also preserves the original LLM's capabilities in general tasks. Ultimately, *we can extend the effective context window of open-source LLMs from 8k to 128k, achieving performance close to GPT-4 with just one day of dedicated training using a single GPU with 80G memory.* Our code is released at the [link](https://github.com/zhiyuanhubj/LongRecipe).
PDF422November 16, 2024