ChatPaper.aiChatPaper

Enfilage d'aiguille : Les LLM peuvent-ils suivre des fils dans des bottes de foin à l'échelle du million ?

Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

November 7, 2024
papers.authors: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI

papers.abstract

À mesure que les limites de contexte des grands modèles de langage (LLM) augmentent, l'éventail des applications possibles et des fonctions en aval s'élargit. Dans de nombreuses tâches du monde réel, les décisions dépendent de détails dispersés dans des collections de documents souvent disparates contenant principalement des informations non pertinentes. Les LLM à contexte long semblent bien adaptés à cette forme de recherche d'information complexe et de raisonnement, qui s'est traditionnellement avérée coûteuse et chronophage. Cependant, bien que le développement de modèles à contexte plus long ait connu des progrès rapides ces dernières années, notre compréhension de l'efficacité avec laquelle les LLM utilisent leur contexte n'a pas suivi le rythme. Pour remédier à cela, nous menons une série d'expériences de récupération conçues pour évaluer les capacités de 17 LLM leaders, telles que leur capacité à suivre des fils d'information à travers la fenêtre de contexte. De manière frappante, nous constatons que de nombreux modèles sont remarquablement "threadsafe" : capables de suivre simultanément plusieurs fils sans perte significative de performance. Néanmoins, pour de nombreux modèles, nous constatons que la limite effective de contexte est nettement plus courte que la longueur de contexte supportée, avec une précision qui diminue à mesure que la fenêtre de contexte s'agrandit. Notre étude met également en lumière le point important que les comptes de tokens provenant de différents tokeniseurs ne doivent pas être directement comparés - ils correspondent souvent à des nombres substantiellement différents de caractères écrits. Nous publions notre code et les données expérimentales de contexte long.
English
As the context limits of Large Language Models (LLMs) increase, the range of possible applications and downstream functions broadens. In many real-world tasks, decisions depend on details scattered across collections of often disparate documents containing mostly irrelevant information. Long-context LLMs appear well-suited to this form of complex information retrieval and reasoning, which has traditionally proven costly and time-consuming. However, although the development of longer context models has seen rapid gains in recent years, our understanding of how effectively LLMs use their context has not kept pace. To address this, we conduct a set of retrieval experiments designed to evaluate the capabilities of 17 leading LLMs, such as their ability to follow threads of information through the context window. Strikingly, we find that many models are remarkably threadsafe: capable of simultaneously following multiple threads without significant loss in performance. Still, for many models, we find the effective context limit is significantly shorter than the supported context length, with accuracy decreasing as the context window grows. Our study also highlights the important point that token counts from different tokenizers should not be directly compared -- they often correspond to substantially different numbers of written characters. We release our code and long-context experimental data.
PDF223December 4, 2025