BABILong: 長文脈におけるLLMの限界を試す 干し草の山の中での推論
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
June 14, 2024
著者: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
要旨
近年、大規模言語モデル(LLM)の入力コンテキストサイズは劇的に増加しています。しかし、既存の評価手法はこれに追いついておらず、長いコンテキストを扱うモデルの効率性を包括的に評価できていません。このギャップを埋めるため、我々はBABILongベンチマークを導入しました。これは、極めて長い文書に分散した事実を横断して推論する言語モデルの能力をテストするために設計されています。BABILongは、事実の連鎖、単純帰納、演繹、カウント、リスト/セットの処理など、多様な20の推論タスクを含んでいます。これらのタスクは単体でも挑戦的であり、必要な事実が長い自然文書に散らばっている場合にはさらに難易度が増します。我々の評価によると、人気のあるLLMはコンテキストの10〜20%しか効果的に活用できず、推論の複雑さが増すと性能が急激に低下します。コンテキスト内推論の代替手段として、検索拡張生成(Retrieval-Augmented Generation)手法は、単一事実の質問応答において60%の精度を達成しますが、これはコンテキストの長さに依存しません。コンテキスト拡張手法の中では、リカレントメモリトランスフォーマーが最高の性能を示し、最大1,100万トークンの長さを処理可能です。BABILongベンチマークは、新たに登場する能力向上モデルの評価をサポートするため、任意の長さに拡張可能であり、我々は最大100万トークン長までの分割を提供しています。
English
In recent years, the input context sizes of large language models (LLMs) have
increased dramatically. However, existing evaluation methods have not kept
pace, failing to comprehensively assess the efficiency of models in handling
long contexts. To bridge this gap, we introduce the BABILong benchmark,
designed to test language models' ability to reason across facts distributed in
extremely long documents. BABILong includes a diverse set of 20 reasoning
tasks, including fact chaining, simple induction, deduction, counting, and
handling lists/sets. These tasks are challenging on their own, and even more
demanding when the required facts are scattered across long natural text. Our
evaluations show that popular LLMs effectively utilize only 10-20\% of the
context and their performance declines sharply with increased reasoning
complexity. Among alternatives to in-context reasoning, Retrieval-Augmented
Generation methods achieve a modest 60\% accuracy on single-fact question
answering, independent of context length. Among context extension methods, the
highest performance is demonstrated by recurrent memory transformers, enabling
the processing of lengths up to 11 million tokens. The BABILong benchmark is
extendable to any length to support the evaluation of new upcoming models with
increased capabilities, and we provide splits up to 1 million token lengths.Summary
AI-Generated Summary