Um Estudo Controlado sobre a Extensão de Contexto Longo e Generalização em LLMs
A Controlled Study on Long Context Extension and Generalization in LLMs
September 18, 2024
Autores: Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush
cs.AI
Resumo
A compreensão textual ampla e a aprendizagem em contexto exigem modelos de linguagem que utilizem contextos completos de documentos. Devido aos desafios de implementação associados ao treinamento direto de modelos de longo contexto, muitos métodos foram propostos para estender modelos a lidar com contextos longos. No entanto, devido às diferenças nos dados e nas classes de modelos, tem sido desafiador comparar essas abordagens, levando à incerteza sobre como avaliar o desempenho de longo contexto e se difere da avaliação padrão. Implementamos um protocolo controlado para métodos de extensão com uma avaliação padronizada, utilizando modelos base consistentes e dados de extensão. Nosso estudo gera várias percepções sobre o comportamento de longo contexto. Primeiramente, reafirmamos o papel crítico da perplexidade como indicador de desempenho de propósito geral, mesmo em tarefas de contexto mais longo. Em segundo lugar, descobrimos que os métodos atuais de atenção aproximada sistematicamente têm desempenho inferior em tarefas de longo contexto. Por fim, confirmamos que os métodos exatos de ajuste fino são geralmente eficazes dentro da faixa de sua extensão, enquanto a extrapolação permanece desafiadora. Todos os códigos-fonte, modelos e checkpoints serão disponibilizados em código aberto, promovendo transparência e facilitando pesquisas adicionais nessa área crítica de desenvolvimento de IA.
English
Broad textual understanding and in-context learning require language models
that utilize full document contexts. Due to the implementation challenges
associated with directly training long-context models, many methods have been
proposed for extending models to handle long contexts. However, owing to
differences in data and model classes, it has been challenging to compare these
approaches, leading to uncertainty as to how to evaluate long-context
performance and whether it differs from standard evaluation. We implement a
controlled protocol for extension methods with a standardized evaluation,
utilizing consistent base models and extension data. Our study yields several
insights into long-context behavior. First, we reaffirm the critical role of
perplexity as a general-purpose performance indicator even in longer-context
tasks. Second, we find that current approximate attention methods
systematically underperform across long-context tasks. Finally, we confirm that
exact fine-tuning based methods are generally effective within the range of
their extension, whereas extrapolation remains challenging. All codebases,
models, and checkpoints will be made available open-source, promoting
transparency and facilitating further research in this critical area of AI
development.Summary
AI-Generated Summary