BABILong: Testen der Grenzen von LLMs mit langem Kontext Reasoning-in-a-Haystack

papers.abstract

In den letzten Jahren haben sich die Eingabekontextgrößen großer Sprachmodelle (LLMs) dramatisch erhöht. Allerdings sind die bestehenden Bewertungsmethoden nicht Schritt gehalten und konnten die Effizienz der Modelle im Umgang mit langen Kontexten nicht umfassend bewerten. Um diese Lücke zu schließen, führen wir den BABILong-Benchmark ein, der entwickelt wurde, um die Fähigkeit von Sprachmodellen zu testen, Schlussfolgerungen aus Fakten zu ziehen, die in extrem langen Dokumenten verteilt sind. BABILong umfasst eine vielfältige Sammlung von 20 Schlussfolgerungsaufgaben, darunter Faktenschluss, einfache Induktion, Deduktion, Zählen und den Umgang mit Listen/Mengen. Diese Aufgaben sind anspruchsvoll für sich allein und noch anspruchsvoller, wenn die erforderlichen Fakten über lange natürliche Texte verteilt sind. Unsere Bewertungen zeigen, dass beliebte LLMs effektiv nur 10-20\% des Kontexts nutzen und ihre Leistung mit zunehmender Schlussfolgerungskomplexität stark abnimmt. Unter den Alternativen zum In-Context-Schlussfolgern erreichen Methoden zur abgerufenen Generierung eine bescheidene Genauigkeit von 60\% bei der Beantwortung von Ein-Fakt-Fragen, unabhängig von der Kontextlänge. Unter den Methoden zur Kontexterweiterung wird die höchste Leistung von rekurrenten Speichertransformatoren demonstriert, die die Verarbeitung von Längen von bis zu 11 Millionen Tokens ermöglichen. Der BABILong-Benchmark ist auf jede Länge erweiterbar, um die Bewertung neuer bevorstehender Modelle mit erweiterten Fähigkeiten zu unterstützen, und wir stellen Aufteilungen bis zu einer Länge von 1 Million Tokens bereit.

English

In recent years, the input context sizes of large language models (LLMs) have increased dramatically. However, existing evaluation methods have not kept pace, failing to comprehensively assess the efficiency of models in handling long contexts. To bridge this gap, we introduce the BABILong benchmark, designed to test language models' ability to reason across facts distributed in extremely long documents. BABILong includes a diverse set of 20 reasoning tasks, including fact chaining, simple induction, deduction, counting, and handling lists/sets. These tasks are challenging on their own, and even more demanding when the required facts are scattered across long natural text. Our evaluations show that popular LLMs effectively utilize only 10-20\% of the context and their performance declines sharply with increased reasoning complexity. Among alternatives to in-context reasoning, Retrieval-Augmented Generation methods achieve a modest 60\% accuracy on single-fact question answering, independent of context length. Among context extension methods, the highest performance is demonstrated by recurrent memory transformers, enabling the processing of lengths up to 11 million tokens. The BABILong benchmark is extendable to any length to support the evaluation of new upcoming models with increased capabilities, and we provide splits up to 1 million token lengths.

BABILong: Testen der Grenzen von LLMs mit langem Kontext Reasoning-in-a-Haystack

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

papers.abstract

Support