同一タスク、より多くのトークン:入力長が大規模言語モデルの推論性能に与える影響
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
February 19, 2024
著者: Mosh Levy, Alon Jacoby, Yoav Goldberg
cs.AI
要旨
本論文は、入力長の拡張が大規模言語モデル(LLMs)の能力に与える影響を探求する。近年のLLMsの進歩にもかかわらず、異なる入力長における性能の一貫性は十分に理解されていない。我々は、入力長の影響を評価するために特別に設計された新しいQA推論フレームワークを導入し、この側面を調査する。同一サンプルの複数バージョンを用いて、異なる長さ、種類、位置のパディングで拡張することで、入力長の効果を分離する。我々の調査結果は、LLMsの技術的な最大値よりもはるかに短い入力長において、推論性能が顕著に低下することを示している。この低下傾向は、データセットのすべてのバージョンで見られるが、その強度は異なる。さらに、従来のパープレキシティ指標は、長い入力推論タスクにおけるLLMsの性能と相関しないことが明らかになった。我々は結果を分析し、将来の研究に有用なガイドとなる失敗モードを特定し、LLMsで観察された制限に対処するための戦略に情報を提供する可能性がある。
English
This paper explores the impact of extending input lengths on the capabilities
of Large Language Models (LLMs). Despite LLMs advancements in recent times,
their performance consistency across different input lengths is not well
understood. We investigate this aspect by introducing a novel QA reasoning
framework, specifically designed to assess the impact of input length. We
isolate the effect of input length using multiple versions of the same sample,
each being extended with padding of different lengths, types and locations. Our
findings show a notable degradation in LLMs' reasoning performance at much
shorter input lengths than their technical maximum. We show that the
degradation trend appears in every version of our dataset, although at
different intensities. Additionally, our study reveals that traditional
perplexity metrics do not correlate with performance of LLMs' in long input
reasoning tasks. We analyse our results and identify failure modes that can
serve as useful guides for future research, potentially informing strategies to
address the limitations observed in LLMs.