長文脈LLMは長文脈内学習に苦戦する
Long-context LLMs Struggle with Long In-context Learning
April 2, 2024
著者: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen
cs.AI
要旨
大規模言語モデル(LLMs)は、32Kトークンを超える長いシーケンスの処理において大きな進展を遂げてきた。しかし、その性能評価は、主にパープレキシティや合成タスクなどの指標に限定されており、より微妙な現実世界のシナリオにおける能力を十分に捉えていない可能性がある。本研究では、極端なラベル分類の領域における長い文脈内学習に焦点を当てた専門的なベンチマーク(LIConBench)を導入する。我々は、28から174クラスに及ぶラベル範囲をカバーし、入力(few-shotデモンストレーション)の長さが2Kから50Kまでの6つのデータセットを慎重に選定した。本ベンチマークでは、LLMsが大規模なラベル空間を認識し、正しい予測を行うために、入力全体を理解することを要求する。我々は、13の長文脈LLMsをこのベンチマークで評価した。その結果、20Kトークン以下の長さでは、長文脈LLMsは比較的良好な性能を示し、長い文脈ウィンドウを活用することで性能が向上することがわかった。しかし、文脈ウィンドウが20Kを超えると、GPT-4を除くほとんどのLLMsの性能が劇的に低下する。これは、現在のLLMsが長く文脈豊かなシーケンスを処理し理解する能力に顕著なギャップがあることを示唆している。さらに分析を行った結果、モデルがシーケンスの後半に提示されたラベルを優先して予測する傾向があることが明らかになった。長いシーケンス内の複数の情報を推論する能力はまだ改善の余地がある。本研究は、長い文脈の理解と推論が既存のLLMsにとって依然として困難な課題であることを明らかにした。LIConBenchは、将来の長文脈LLMsのより現実的な評価として役立つと我々は考えている。
English
Large Language Models (LLMs) have made significant strides in handling long
sequences exceeding 32K tokens. However, their performance evaluation has
largely been confined to metrics like perplexity and synthetic tasks, which may
not fully capture their abilities in more nuanced, real-world scenarios. This
study introduces a specialized benchmark (LIConBench) focusing on long
in-context learning within the realm of extreme-label classification. We
meticulously selected six datasets with a label range spanning 28 to 174
classes covering different input (few-shot demonstration) length from 2K to
50K. Our benchmark requires LLMs to comprehend the entire input to recognize
the massive label spaces to make correct prediction. We evaluate 13
long-context LLMs on our benchmarks. We find that the long-context LLMs perform
relatively well under the token length of 20K and the performance benefits from
utilizing the long context window. However, after the context window exceeds
20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap
in current LLM capabilities for processing and understanding long, context-rich
sequences. Further analysis revealed a tendency among models to favor
predictions for labels presented towards the end at the sequence. Their ability
to reason over multiple pieces in the long sequence is yet to be improved. Our
study reveals that long context understanding and reasoning is still a
challenging task for the existing LLMs. We believe LIConBench could serve as a
more realistic evaluation for the future long context LLMs.Summary
AI-Generated Summary