BABILong: Testen der Grenzen von LLMs mit langem Kontext Reasoning-in-a-Haystack
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
June 14, 2024
Autoren: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Zusammenfassung
In den letzten Jahren haben sich die Eingabekontextgrößen großer Sprachmodelle (LLMs) dramatisch erhöht. Allerdings sind die bestehenden Bewertungsmethoden nicht Schritt gehalten und konnten die Effizienz der Modelle im Umgang mit langen Kontexten nicht umfassend bewerten. Um diese Lücke zu schließen, führen wir den BABILong-Benchmark ein, der entwickelt wurde, um die Fähigkeit von Sprachmodellen zu testen, Schlussfolgerungen aus Fakten zu ziehen, die in extrem langen Dokumenten verteilt sind. BABILong umfasst eine vielfältige Sammlung von 20 Schlussfolgerungsaufgaben, darunter Faktenschluss, einfache Induktion, Deduktion, Zählen und den Umgang mit Listen/Mengen. Diese Aufgaben sind anspruchsvoll für sich allein und noch anspruchsvoller, wenn die erforderlichen Fakten über lange natürliche Texte verteilt sind. Unsere Bewertungen zeigen, dass beliebte LLMs effektiv nur 10-20\% des Kontexts nutzen und ihre Leistung mit zunehmender Schlussfolgerungskomplexität stark abnimmt. Unter den Alternativen zum In-Context-Schlussfolgern erreichen Methoden zur abgerufenen Generierung eine bescheidene Genauigkeit von 60\% bei der Beantwortung von Ein-Fakt-Fragen, unabhängig von der Kontextlänge. Unter den Methoden zur Kontexterweiterung wird die höchste Leistung von rekurrenten Speichertransformatoren demonstriert, die die Verarbeitung von Längen von bis zu 11 Millionen Tokens ermöglichen. Der BABILong-Benchmark ist auf jede Länge erweiterbar, um die Bewertung neuer bevorstehender Modelle mit erweiterten Fähigkeiten zu unterstützen, und wir stellen Aufteilungen bis zu einer Länge von 1 Million Tokens bereit.
English
In recent years, the input context sizes of large language models (LLMs) have
increased dramatically. However, existing evaluation methods have not kept
pace, failing to comprehensively assess the efficiency of models in handling
long contexts. To bridge this gap, we introduce the BABILong benchmark,
designed to test language models' ability to reason across facts distributed in
extremely long documents. BABILong includes a diverse set of 20 reasoning
tasks, including fact chaining, simple induction, deduction, counting, and
handling lists/sets. These tasks are challenging on their own, and even more
demanding when the required facts are scattered across long natural text. Our
evaluations show that popular LLMs effectively utilize only 10-20\% of the
context and their performance declines sharply with increased reasoning
complexity. Among alternatives to in-context reasoning, Retrieval-Augmented
Generation methods achieve a modest 60\% accuracy on single-fact question
answering, independent of context length. Among context extension methods, the
highest performance is demonstrated by recurrent memory transformers, enabling
the processing of lengths up to 11 million tokens. The BABILong benchmark is
extendable to any length to support the evaluation of new upcoming models with
increased capabilities, and we provide splits up to 1 million token lengths.Summary
AI-Generated Summary