ChatPaper.aiChatPaper

Les LLM à contexte long rencontrent des difficultés avec l'apprentissage in-context sur de longues séquences.

Long-context LLMs Struggle with Long In-context Learning

April 2, 2024
Auteurs: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) ont réalisé des progrès significatifs dans le traitement de longues séquences dépassant 32 000 tokens. Cependant, leur évaluation s'est largement limitée à des métriques comme la perplexité et des tâches synthétiques, qui pourraient ne pas pleinement refléter leurs capacités dans des scénarios réels plus nuancés. Cette étude introduit un benchmark spécialisé (LIConBench) axé sur l'apprentissage en contexte long dans le domaine de la classification à labels extrêmes. Nous avons soigneusement sélectionné six jeux de données avec un nombre de labels allant de 28 à 174 classes, couvrant différentes longueurs d'entrée (démonstrations few-shot) de 2 000 à 50 000 tokens. Notre benchmark exige que les LLMs comprennent l'intégralité de l'entrée pour reconnaître les espaces de labels massifs et effectuer des prédictions correctes. Nous évaluons 13 LLMs à contexte long sur notre benchmark. Nous constatons que les LLMs à contexte long performent relativement bien pour des longueurs de tokens inférieures à 20 000, et que leurs performances bénéficient de l'utilisation d'une fenêtre de contexte longue. Cependant, lorsque la fenêtre de contexte dépasse 20 000 tokens, la plupart des LLMs, à l'exception de GPT-4, voient leurs performances chuter de manière significative. Cela suggère un écart notable dans les capacités actuelles des LLMs à traiter et comprendre des séquences longues et riches en contexte. Une analyse plus approfondie révèle une tendance des modèles à favoriser les prédictions pour les labels présentés vers la fin de la séquence. Leur capacité à raisonner sur plusieurs éléments dans une longue séquence reste à améliorer. Notre étude montre que la compréhension et le raisonnement en contexte long constituent toujours une tâche difficile pour les LLMs existants. Nous pensons que LIConBench pourrait servir d'évaluation plus réaliste pour les futurs LLMs à contexte long.
English
Large Language Models (LLMs) have made significant strides in handling long sequences exceeding 32K tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their abilities in more nuanced, real-world scenarios. This study introduces a specialized benchmark (LIConBench) focusing on long in-context learning within the realm of extreme-label classification. We meticulously selected six datasets with a label range spanning 28 to 174 classes covering different input (few-shot demonstration) length from 2K to 50K. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct prediction. We evaluate 13 long-context LLMs on our benchmarks. We find that the long-context LLMs perform relatively well under the token length of 20K and the performance benefits from utilizing the long context window. However, after the context window exceeds 20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap in current LLM capabilities for processing and understanding long, context-rich sequences. Further analysis revealed a tendency among models to favor predictions for labels presented towards the end at the sequence. Their ability to reason over multiple pieces in the long sequence is yet to be improved. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LIConBench could serve as a more realistic evaluation for the future long context LLMs.

Summary

AI-Generated Summary

PDF384November 26, 2024