Um Estudo Controlado sobre a Extensão de Contexto Longo e Generalização em LLMs

Resumo

A compreensão textual ampla e a aprendizagem em contexto exigem modelos de linguagem que utilizem contextos completos de documentos. Devido aos desafios de implementação associados ao treinamento direto de modelos de longo contexto, muitos métodos foram propostos para estender modelos a lidar com contextos longos. No entanto, devido às diferenças nos dados e nas classes de modelos, tem sido desafiador comparar essas abordagens, levando à incerteza sobre como avaliar o desempenho de longo contexto e se difere da avaliação padrão. Implementamos um protocolo controlado para métodos de extensão com uma avaliação padronizada, utilizando modelos base consistentes e dados de extensão. Nosso estudo gera várias percepções sobre o comportamento de longo contexto. Primeiramente, reafirmamos o papel crítico da perplexidade como indicador de desempenho de propósito geral, mesmo em tarefas de contexto mais longo. Em segundo lugar, descobrimos que os métodos atuais de atenção aproximada sistematicamente têm desempenho inferior em tarefas de longo contexto. Por fim, confirmamos que os métodos exatos de ajuste fino são geralmente eficazes dentro da faixa de sua extensão, enquanto a extrapolação permanece desafiadora. Todos os códigos-fonte, modelos e checkpoints serão disponibilizados em código aberto, promovendo transparência e facilitando pesquisas adicionais nessa área crítica de desenvolvimento de IA.

English

Broad textual understanding and in-context learning require language models that utilize full document contexts. Due to the implementation challenges associated with directly training long-context models, many methods have been proposed for extending models to handle long contexts. However, owing to differences in data and model classes, it has been challenging to compare these approaches, leading to uncertainty as to how to evaluate long-context performance and whether it differs from standard evaluation. We implement a controlled protocol for extension methods with a standardized evaluation, utilizing consistent base models and extension data. Our study yields several insights into long-context behavior. First, we reaffirm the critical role of perplexity as a general-purpose performance indicator even in longer-context tasks. Second, we find that current approximate attention methods systematically underperform across long-context tasks. Finally, we confirm that exact fine-tuning based methods are generally effective within the range of their extension, whereas extrapolation remains challenging. All codebases, models, and checkpoints will be made available open-source, promoting transparency and facilitating further research in this critical area of AI development.

Um Estudo Controlado sobre a Extensão de Contexto Longo e Generalização em LLMs

A Controlled Study on Long Context Extension and Generalization in LLMs

Resumo

Support