BABILong : Tester les limites des LLM avec un contexte long Raisonnement dans une botte de foin
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
June 14, 2024
Auteurs: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Résumé
Ces dernières années, la taille des contextes d'entrée des grands modèles de langage (LLM) a considérablement augmenté. Cependant, les méthodes d'évaluation existantes n'ont pas suivi cette évolution, ne parvenant pas à évaluer de manière exhaustive l'efficacité des modèles dans la gestion de contextes longs. Pour combler cette lacune, nous introduisons le benchmark BABILong, conçu pour tester la capacité des modèles de langage à raisonner sur des faits répartis dans des documents extrêmement longs. BABILong inclut un ensemble varié de 20 tâches de raisonnement, telles que l'enchaînement de faits, l'induction simple, la déduction, le comptage et la gestion de listes/ensembles. Ces tâches sont déjà difficiles en elles-mêmes, et deviennent encore plus exigeantes lorsque les faits nécessaires sont dispersés dans un texte naturel long. Nos évaluations montrent que les LLM populaires n'utilisent efficacement que 10 à 20 % du contexte, et que leurs performances déclinent fortement avec l'augmentation de la complexité du raisonnement. Parmi les alternatives au raisonnement en contexte, les méthodes de Génération Augmentée par Récupération (RAG) atteignent une précision modeste de 60 % pour les questions à réponse unique, indépendamment de la longueur du contexte. Parmi les méthodes d'extension de contexte, les transformateurs à mémoire récurrente démontrent les meilleures performances, permettant de traiter des longueurs allant jusqu'à 11 millions de tokens. Le benchmark BABILong est extensible à n'importe quelle longueur pour soutenir l'évaluation des nouveaux modèles aux capacités accrues, et nous fournissons des jeux de données allant jusqu'à 1 million de tokens.
English
In recent years, the input context sizes of large language models (LLMs) have
increased dramatically. However, existing evaluation methods have not kept
pace, failing to comprehensively assess the efficiency of models in handling
long contexts. To bridge this gap, we introduce the BABILong benchmark,
designed to test language models' ability to reason across facts distributed in
extremely long documents. BABILong includes a diverse set of 20 reasoning
tasks, including fact chaining, simple induction, deduction, counting, and
handling lists/sets. These tasks are challenging on their own, and even more
demanding when the required facts are scattered across long natural text. Our
evaluations show that popular LLMs effectively utilize only 10-20\% of the
context and their performance declines sharply with increased reasoning
complexity. Among alternatives to in-context reasoning, Retrieval-Augmented
Generation methods achieve a modest 60\% accuracy on single-fact question
answering, independent of context length. Among context extension methods, the
highest performance is demonstrated by recurrent memory transformers, enabling
the processing of lengths up to 11 million tokens. The BABILong benchmark is
extendable to any length to support the evaluation of new upcoming models with
increased capabilities, and we provide splits up to 1 million token lengths.Summary
AI-Generated Summary