ChatPaper.aiChatPaper

Enfiando a Agulha: Os LLMs Conseguem Seguir Fios em Palheiros de Escala Quase Milionária?

Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

November 7, 2024
Autores: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI

Resumo

À medida que os limites de contexto dos Modelos de Linguagem de Grande Porte (LLMs) aumentam, o leque de possíveis aplicações e funções secundárias amplia-se. Em muitas tarefas do mundo real, as decisões dependem de detalhes dispersos por coleções de documentos frequentemente díspares que contêm maioritariamente informação irrelevante. Os LLMs de contexto longo parecem bem adaptados a esta forma de recuperação e raciocínio de informação complexa, que tradicionalmente se mostrou dispendiosa e demorada. No entanto, embora o desenvolvimento de modelos com contextos mais longos tenha registado progressos rápidos nos últimos anos, a nossa compreensão sobre a eficácia com que os LLMs utilizam o seu contexto não acompanhou esse ritmo. Para colmatar esta lacuna, realizamos um conjunto de experiências de recuperação concebidas para avaliar as capacidades de 17 LLMs líderes, como a sua capacidade de seguir fios de informação através da janela de contexto. De forma notável, descobrimos que muitos modelos são notavelmente robustos à concorrência de fios: capazes de seguir múltiplos fios em simultâneo sem perdas significativas de desempenho. Ainda assim, para muitos modelos, verificamos que o limite efetivo de contexto é significativamente mais curto do que o comprimento de contexto suportado, com a precisão a diminuir à medida que a janela de contexto cresce. O nosso estudo também salienta o ponto importante de que as contagens de tokens de diferentes tokenizadores não devem ser comparadas diretamente – estas correspondem frequentemente a números substancialmente diferentes de caracteres escritos. Disponibilizamos o nosso código e os dados experimentais de contexto longo.
English
As the context limits of Large Language Models (LLMs) increase, the range of possible applications and downstream functions broadens. In many real-world tasks, decisions depend on details scattered across collections of often disparate documents containing mostly irrelevant information. Long-context LLMs appear well-suited to this form of complex information retrieval and reasoning, which has traditionally proven costly and time-consuming. However, although the development of longer context models has seen rapid gains in recent years, our understanding of how effectively LLMs use their context has not kept pace. To address this, we conduct a set of retrieval experiments designed to evaluate the capabilities of 17 leading LLMs, such as their ability to follow threads of information through the context window. Strikingly, we find that many models are remarkably threadsafe: capable of simultaneously following multiple threads without significant loss in performance. Still, for many models, we find the effective context limit is significantly shorter than the supported context length, with accuracy decreasing as the context window grows. Our study also highlights the important point that token counts from different tokenizers should not be directly compared -- they often correspond to substantially different numbers of written characters. We release our code and long-context experimental data.
PDF223December 4, 2025