Un estudio controlado sobre la extensión y generalización del contexto largo en LLMs.
A Controlled Study on Long Context Extension and Generalization in LLMs
September 18, 2024
Autores: Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush
cs.AI
Resumen
La comprensión textual amplia y el aprendizaje en contexto requieren modelos de lenguaje que utilicen contextos completos de documentos. Debido a los desafíos de implementación asociados con el entrenamiento directo de modelos de largo contexto, se han propuesto muchos métodos para extender los modelos y manejar contextos largos. Sin embargo, debido a las diferencias en los datos y clases de modelos, ha sido difícil comparar estos enfoques, lo que genera incertidumbre sobre cómo evaluar el rendimiento en contextos largos y si difiere de la evaluación estándar. Implementamos un protocolo controlado para los métodos de extensión con una evaluación estandarizada, utilizando modelos base consistentes y datos de extensión. Nuestro estudio proporciona varias ideas sobre el comportamiento en contextos largos. En primer lugar, reafirmamos el papel crítico de la perplejidad como indicador de rendimiento de propósito general incluso en tareas de contextos más largos. En segundo lugar, encontramos que los métodos actuales de atención aproximada sistemáticamente tienen un rendimiento inferior en tareas de largo contexto. Finalmente, confirmamos que los métodos de ajuste fino exactos son generalmente efectivos dentro del rango de su extensión, mientras que la extrapolación sigue siendo un desafío. Todos los códigos, modelos y puntos de control estarán disponibles de código abierto, promoviendo la transparencia y facilitando una mayor investigación en esta área crítica del desarrollo de IA.
English
Broad textual understanding and in-context learning require language models
that utilize full document contexts. Due to the implementation challenges
associated with directly training long-context models, many methods have been
proposed for extending models to handle long contexts. However, owing to
differences in data and model classes, it has been challenging to compare these
approaches, leading to uncertainty as to how to evaluate long-context
performance and whether it differs from standard evaluation. We implement a
controlled protocol for extension methods with a standardized evaluation,
utilizing consistent base models and extension data. Our study yields several
insights into long-context behavior. First, we reaffirm the critical role of
perplexity as a general-purpose performance indicator even in longer-context
tasks. Second, we find that current approximate attention methods
systematically underperform across long-context tasks. Finally, we confirm that
exact fine-tuning based methods are generally effective within the range of
their extension, whereas extrapolation remains challenging. All codebases,
models, and checkpoints will be made available open-source, promoting
transparency and facilitating further research in this critical area of AI
development.Summary
AI-Generated Summary