BABILong: De Grenzen van LLMs Testen met Lange Context Redeneren-in-een-Hooiberg
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
June 14, 2024
Auteurs: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Samenvatting
In de afgelopen jaren zijn de invoercontextgroottes van grote taalmmodellen (LLMs) aanzienlijk toegenomen. Bestaande evaluatiemethoden hebben echter geen gelijke tred gehouden en slagen er niet in om de efficiëntie van modellen bij het verwerken van lange contexten uitgebreid te beoordelen. Om deze kloof te overbruggen, introduceren we de BABILong-benchmark, die is ontworpen om het vermogen van taalmmodellen om te redeneren over feiten die verspreid zijn over extreem lange documenten te testen. BABILong omvat een diverse set van 20 redeneertaken, waaronder feitenketens, eenvoudige inductie, deductie, tellen en het verwerken van lijsten/verzamelingen. Deze taken zijn op zichzelf al uitdagend en worden nog veeleisender wanneer de benodigde feiten verspreid zijn over lange natuurlijke teksten. Onze evaluaties tonen aan dat populaire LLMs slechts 10-20\% van de context effectief benutten en dat hun prestaties sterk afnemen bij toenemende redeneercomplexiteit. Onder de alternatieven voor in-context redeneren behalen Retrieval-Augmented Generation-methoden een bescheiden nauwkeurigheid van 60\% bij het beantwoorden van vragen over enkelvoudige feiten, onafhankelijk van de contextlengte. Onder de contextuitbreidingsmethoden laten recurrent memory transformers de hoogste prestaties zien, waardoor het verwerken van lengtes tot 11 miljoen tokens mogelijk wordt. De BABILong-benchmark is uitbreidbaar tot elke lengte om de evaluatie van nieuwe, aankomende modellen met verhoogde capaciteiten te ondersteunen, en we bieden splitsingen aan tot 1 miljoen tokenlengtes.
English
In recent years, the input context sizes of large language models (LLMs) have
increased dramatically. However, existing evaluation methods have not kept
pace, failing to comprehensively assess the efficiency of models in handling
long contexts. To bridge this gap, we introduce the BABILong benchmark,
designed to test language models' ability to reason across facts distributed in
extremely long documents. BABILong includes a diverse set of 20 reasoning
tasks, including fact chaining, simple induction, deduction, counting, and
handling lists/sets. These tasks are challenging on their own, and even more
demanding when the required facts are scattered across long natural text. Our
evaluations show that popular LLMs effectively utilize only 10-20\% of the
context and their performance declines sharply with increased reasoning
complexity. Among alternatives to in-context reasoning, Retrieval-Augmented
Generation methods achieve a modest 60\% accuracy on single-fact question
answering, independent of context length. Among context extension methods, the
highest performance is demonstrated by recurrent memory transformers, enabling
the processing of lengths up to 11 million tokens. The BABILong benchmark is
extendable to any length to support the evaluation of new upcoming models with
increased capabilities, and we provide splits up to 1 million token lengths.