ChatPaper.aiChatPaper

BABILong: 長文脈におけるLLMの限界を試す 干し草の山の中での推論

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

June 14, 2024
著者: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI

要旨

近年、大規模言語モデル(LLM)の入力コンテキストサイズは劇的に増加しています。しかし、既存の評価手法はこれに追いついておらず、長いコンテキストを扱うモデルの効率性を包括的に評価できていません。このギャップを埋めるため、我々はBABILongベンチマークを導入しました。これは、極めて長い文書に分散した事実を横断して推論する言語モデルの能力をテストするために設計されています。BABILongは、事実の連鎖、単純帰納、演繹、カウント、リスト/セットの処理など、多様な20の推論タスクを含んでいます。これらのタスクは単体でも挑戦的であり、必要な事実が長い自然文書に散らばっている場合にはさらに難易度が増します。我々の評価によると、人気のあるLLMはコンテキストの10〜20%しか効果的に活用できず、推論の複雑さが増すと性能が急激に低下します。コンテキスト内推論の代替手段として、検索拡張生成(Retrieval-Augmented Generation)手法は、単一事実の質問応答において60%の精度を達成しますが、これはコンテキストの長さに依存しません。コンテキスト拡張手法の中では、リカレントメモリトランスフォーマーが最高の性能を示し、最大1,100万トークンの長さを処理可能です。BABILongベンチマークは、新たに登場する能力向上モデルの評価をサポートするため、任意の長さに拡張可能であり、我々は最大100万トークン長までの分割を提供しています。
English
In recent years, the input context sizes of large language models (LLMs) have increased dramatically. However, existing evaluation methods have not kept pace, failing to comprehensively assess the efficiency of models in handling long contexts. To bridge this gap, we introduce the BABILong benchmark, designed to test language models' ability to reason across facts distributed in extremely long documents. BABILong includes a diverse set of 20 reasoning tasks, including fact chaining, simple induction, deduction, counting, and handling lists/sets. These tasks are challenging on their own, and even more demanding when the required facts are scattered across long natural text. Our evaluations show that popular LLMs effectively utilize only 10-20\% of the context and their performance declines sharply with increased reasoning complexity. Among alternatives to in-context reasoning, Retrieval-Augmented Generation methods achieve a modest 60\% accuracy on single-fact question answering, independent of context length. Among context extension methods, the highest performance is demonstrated by recurrent memory transformers, enabling the processing of lengths up to 11 million tokens. The BABILong benchmark is extendable to any length to support the evaluation of new upcoming models with increased capabilities, and we provide splits up to 1 million token lengths.

Summary

AI-Generated Summary

PDF514December 6, 2024