ChatPaper.aiChatPaper

針の糸通し:大規模な干し草の山を超えてLLMは糸をたどれるか?

Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

November 7, 2024
著者: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI

要旨

大規模言語モデル(LLMs)のコンテキスト制限が拡大するにつれ、可能な応用範囲や下流タスクの幅も広がっている。多くの現実世界のタスクでは、意思決定はしばしば無関係な情報が大半を占める異種の文書群に散在する詳細に依存している。長文コンテキストを扱えるLLMsは、従来コストと時間がかかるとされてきたこの種の複雑な情報検索と推論に適しているように見える。しかし、近年の長文コンテキストモデルの開発は急速に進展しているものの、LLMsがそのコンテキストをどの程度効果的に利用しているかについての理解は追いついていない。この問題に対処するため、我々は17の主要なLLMsの能力を評価するための一連の検索実験を実施し、特にコンテキストウィンドウを通じて情報のスレッドを追跡する能力に焦点を当てた。驚くべきことに、多くのモデルが「スレッドセーフ」であることが判明した。つまり、複数のスレッドを同時に追跡しても性能が著しく低下しないという特性を示した。しかし、多くのモデルにおいて、有効なコンテキスト制限はサポートされているコンテキスト長よりも大幅に短く、コンテキストウィンドウが大きくなるにつれて精度が低下する傾向が見られた。また、本研究は、異なるトークナイザーからのトークン数を直接比較すべきではないという重要な点を強調している。それらはしばしば大幅に異なる文字数に対応するためである。我々は、コードと長文コンテキスト実験データを公開する。
English
As the context limits of Large Language Models (LLMs) increase, the range of possible applications and downstream functions broadens. In many real-world tasks, decisions depend on details scattered across collections of often disparate documents containing mostly irrelevant information. Long-context LLMs appear well-suited to this form of complex information retrieval and reasoning, which has traditionally proven costly and time-consuming. However, although the development of longer context models has seen rapid gains in recent years, our understanding of how effectively LLMs use their context has not kept pace. To address this, we conduct a set of retrieval experiments designed to evaluate the capabilities of 17 leading LLMs, such as their ability to follow threads of information through the context window. Strikingly, we find that many models are remarkably threadsafe: capable of simultaneously following multiple threads without significant loss in performance. Still, for many models, we find the effective context limit is significantly shorter than the supported context length, with accuracy decreasing as the context window grows. Our study also highlights the important point that token counts from different tokenizers should not be directly compared -- they often correspond to substantially different numbers of written characters. We release our code and long-context experimental data.
PDF223December 4, 2025