Een Gecontroleerde Studie naar Lang Contextuele Uitbreiding en Generalisatie in Taalmodelen met Lange Afstanden
A Controlled Study on Long Context Extension and Generalization in LLMs
September 18, 2024
Auteurs: Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush
cs.AI
Samenvatting
Een breder tekstueel begrip en leren in context vereisen taalmodellen die gebruikmaken van volledige documentcontexten. Vanwege de implementatie-uitdagingen die gepaard gaan met het direct trainen van modellen met lange context, zijn er veel methoden voorgesteld om modellen uit te breiden om lange contexten aan te kunnen. Echter, vanwege verschillen in data en modelklassen is het lastig geweest om deze benaderingen te vergelijken, wat heeft geleid tot onzekerheid over hoe de prestaties van lange contexten geëvalueerd moeten worden en of deze verschillen van standaardevaluaties. Wij implementeren een gecontroleerd protocol voor uitbreidingsmethoden met een gestandaardiseerde evaluatie, waarbij consistente basismodellen en uitbreidingsdata worden gebruikt. Onze studie levert verschillende inzichten op in het gedrag van lange contexten. Ten eerste bevestigen we de cruciale rol van perplexiteit als een algemene prestatie-indicator zelfs bij taken met langere contexten. Ten tweede vinden we dat huidige benaderingen met benaderde aandacht systematisch onderpresteren bij taken met lange contexten. Tot slot bevestigen we dat exacte fine-tuning gebaseerde methoden over het algemeen effectief zijn binnen het bereik van hun uitbreiding, terwijl extrapolatie uitdagend blijft. Alle codebases, modellen en checkpoints zullen open-source beschikbaar worden gesteld, waardoor transparantie wordt bevorderd en verder onderzoek op dit kritieke gebied van AI-ontwikkeling wordt gefaciliteerd.
English
Broad textual understanding and in-context learning require language models
that utilize full document contexts. Due to the implementation challenges
associated with directly training long-context models, many methods have been
proposed for extending models to handle long contexts. However, owing to
differences in data and model classes, it has been challenging to compare these
approaches, leading to uncertainty as to how to evaluate long-context
performance and whether it differs from standard evaluation. We implement a
controlled protocol for extension methods with a standardized evaluation,
utilizing consistent base models and extension data. Our study yields several
insights into long-context behavior. First, we reaffirm the critical role of
perplexity as a general-purpose performance indicator even in longer-context
tasks. Second, we find that current approximate attention methods
systematically underperform across long-context tasks. Finally, we confirm that
exact fine-tuning based methods are generally effective within the range of
their extension, whereas extrapolation remains challenging. All codebases,
models, and checkpoints will be made available open-source, promoting
transparency and facilitating further research in this critical area of AI
development.Summary
AI-Generated Summary