ChatPaper.aiChatPaper

Eine kontrollierte Studie zur Erweiterung und Verallgemeinerung von langen Kontexten in LLMs.

A Controlled Study on Long Context Extension and Generalization in LLMs

September 18, 2024
Autoren: Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush
cs.AI

Zusammenfassung

Ein umfassendes Textverständnis und das Lernen im Kontext erfordern Sprachmodelle, die den vollständigen Dokumentenkontext nutzen. Aufgrund der Implementierungsherausforderungen, die mit dem direkten Training von Modellen mit langem Kontext verbunden sind, wurden viele Methoden vorgeschlagen, um Modelle für den Umgang mit langen Kontexten zu erweitern. Aufgrund von Unterschieden in Daten und Modellklassen war es jedoch schwierig, diese Ansätze zu vergleichen, was zu Unsicherheiten hinsichtlich der Bewertung der Leistung bei langem Kontext und ob sie sich von der Standardbewertung unterscheidet, geführt hat. Wir implementieren ein kontrolliertes Protokoll für Erweitungsmethoden mit einer standardisierten Bewertung, unter Verwendung konsistenter Basismodelle und Erweiterungsdaten. Unsere Studie liefert mehrere Erkenntnisse zum Verhalten bei langem Kontext. Erstens bestätigen wir erneut die entscheidende Rolle der Perplexität als allgemeiner Leistungsindikator auch bei längeren Kontextaufgaben. Zweitens stellen wir fest, dass aktuelle approximative Aufmerksamkeitsmethoden systematisch bei langen Kontextaufgaben unterdurchschnittlich abschneiden. Schließlich bestätigen wir, dass genaue Feinabstimmungsmethoden im Allgemeinen innerhalb des Bereichs ihrer Erweiterung wirksam sind, während die Extrapolation herausfordernd bleibt. Alle Codebasen, Modelle und Checkpoints werden Open Source verfügbar gemacht, um Transparenz zu fördern und weitere Forschung in diesem kritischen Bereich der KI-Entwicklung zu erleichtern.
English
Broad textual understanding and in-context learning require language models that utilize full document contexts. Due to the implementation challenges associated with directly training long-context models, many methods have been proposed for extending models to handle long contexts. However, owing to differences in data and model classes, it has been challenging to compare these approaches, leading to uncertainty as to how to evaluate long-context performance and whether it differs from standard evaluation. We implement a controlled protocol for extension methods with a standardized evaluation, utilizing consistent base models and extension data. Our study yields several insights into long-context behavior. First, we reaffirm the critical role of perplexity as a general-purpose performance indicator even in longer-context tasks. Second, we find that current approximate attention methods systematically underperform across long-context tasks. Finally, we confirm that exact fine-tuning based methods are generally effective within the range of their extension, whereas extrapolation remains challenging. All codebases, models, and checkpoints will be made available open-source, promoting transparency and facilitating further research in this critical area of AI development.

Summary

AI-Generated Summary

PDF452November 16, 2024