Uno studio controllato sull'estensione del contesto lungo e sulla generalizzazione nei LLM.
A Controlled Study on Long Context Extension and Generalization in LLMs
September 18, 2024
Autori: Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush
cs.AI
Abstract
Una comprensione testuale ampia e un apprendimento contestuale richiedono modelli linguistici che utilizzino contesti di documenti completi. A causa delle sfide di implementazione legate all'addestramento diretto di modelli a lungo contesto, sono stati proposti molti metodi per estendere i modelli al fine di gestire contesti lunghi. Tuttavia, a causa delle differenze nei dati e nelle classi di modelli, è stato difficile confrontare questi approcci, portando a incertezze su come valutare le prestazioni a lungo contesto e se differiscano dalla valutazione standard. Implementiamo un protocollo controllato per i metodi di estensione con una valutazione standardizzata, utilizzando modelli di base coerenti e dati di estensione. Il nostro studio fornisce diverse intuizioni sul comportamento a lungo contesto. In primo luogo, confermiamo il ruolo critico della perplessità come indicatore delle prestazioni a scopo generale anche nelle attività a contesto più lungo. In secondo luogo, scopriamo che i metodi attuali di attenzione approssimata sottoperformano sistematicamente nelle attività a lungo contesto. Infine, confermiamo che i metodi di fine-tuning esatti sono generalmente efficaci all'interno del loro intervallo di estensione, mentre l'interpolazione rimane una sfida. Tutte le basi di codice, i modelli e i checkpoint saranno resi disponibili open-source, promuovendo la trasparenza e agevolando ulteriori ricerche in questa area critica dello sviluppo dell'IA.
English
Broad textual understanding and in-context learning require language models
that utilize full document contexts. Due to the implementation challenges
associated with directly training long-context models, many methods have been
proposed for extending models to handle long contexts. However, owing to
differences in data and model classes, it has been challenging to compare these
approaches, leading to uncertainty as to how to evaluate long-context
performance and whether it differs from standard evaluation. We implement a
controlled protocol for extension methods with a standardized evaluation,
utilizing consistent base models and extension data. Our study yields several
insights into long-context behavior. First, we reaffirm the critical role of
perplexity as a general-purpose performance indicator even in longer-context
tasks. Second, we find that current approximate attention methods
systematically underperform across long-context tasks. Finally, we confirm that
exact fine-tuning based methods are generally effective within the range of
their extension, whereas extrapolation remains challenging. All codebases,
models, and checkpoints will be made available open-source, promoting
transparency and facilitating further research in this critical area of AI
development.Summary
AI-Generated Summary