Контролируемое исследование о расширении длинного контекста и обобщении в языковых моделях с малым количеством параметров
A Controlled Study on Long Context Extension and Generalization in LLMs
September 18, 2024
Авторы: Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush
cs.AI
Аннотация
Широкое понимание текста и обучение в контексте требуют языковых моделей, которые используют полные контексты документов. Из-за вызовов, связанных с прямым обучением моделей с длинным контекстом, было предложено множество методов для расширения моделей для работы с длинными контекстами. Однако из-за различий в данных и классах моделей сравнение этих подходов оказалось сложным, что привело к неопределенности в оценке производительности на длинных контекстах и вопросам о том, отличается ли она от стандартной оценки. Мы реализуем контролируемый протокол для методов расширения с стандартизированной оценкой, используя согласованные базовые модели и данные расширения. Наше исследование дает несколько идей о поведении длинных контекстов. Во-первых, мы подтверждаем критическую роль перплексии как универсального показателя производительности даже в задачах с более длинным контекстом. Во-вторых, мы обнаруживаем, что текущие методы приближенного внимания систематически показывают худшую производительность в задачах с длинным контекстом. Наконец, мы подтверждаем, что точные методы настройки на основе обучения на конечном этапе обычно эффективны в пределах их расширения, в то время как экстраполяция остается сложной. Все кодовые базы, модели и контрольные точки будут доступны в открытом доступе, способствуя прозрачности и облегчая дальнейшие исследования в этой критической области развития искусственного интеллекта.
English
Broad textual understanding and in-context learning require language models
that utilize full document contexts. Due to the implementation challenges
associated with directly training long-context models, many methods have been
proposed for extending models to handle long contexts. However, owing to
differences in data and model classes, it has been challenging to compare these
approaches, leading to uncertainty as to how to evaluate long-context
performance and whether it differs from standard evaluation. We implement a
controlled protocol for extension methods with a standardized evaluation,
utilizing consistent base models and extension data. Our study yields several
insights into long-context behavior. First, we reaffirm the critical role of
perplexity as a general-purpose performance indicator even in longer-context
tasks. Second, we find that current approximate attention methods
systematically underperform across long-context tasks. Finally, we confirm that
exact fine-tuning based methods are generally effective within the range of
their extension, whereas extrapolation remains challenging. All codebases,
models, and checkpoints will be made available open-source, promoting
transparency and facilitating further research in this critical area of AI
development.Summary
AI-Generated Summary