Enfiando a Agulha: Os LLMs Conseguem Seguir Fios em Palheiros de Escala Quase Milionária?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?
November 7, 2024
Autores: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Resumo
À medida que os limites de contexto dos Modelos de Linguagem de Grande Porte (LLMs) aumentam, o leque de possíveis aplicações e funções secundárias amplia-se. Em muitas tarefas do mundo real, as decisões dependem de detalhes dispersos por coleções de documentos frequentemente díspares que contêm maioritariamente informação irrelevante. Os LLMs de contexto longo parecem bem adaptados a esta forma de recuperação e raciocínio de informação complexa, que tradicionalmente se mostrou dispendiosa e demorada. No entanto, embora o desenvolvimento de modelos com contextos mais longos tenha registado progressos rápidos nos últimos anos, a nossa compreensão sobre a eficácia com que os LLMs utilizam o seu contexto não acompanhou esse ritmo. Para colmatar esta lacuna, realizamos um conjunto de experiências de recuperação concebidas para avaliar as capacidades de 17 LLMs líderes, como a sua capacidade de seguir fios de informação através da janela de contexto. De forma notável, descobrimos que muitos modelos são notavelmente robustos à concorrência de fios: capazes de seguir múltiplos fios em simultâneo sem perdas significativas de desempenho. Ainda assim, para muitos modelos, verificamos que o limite efetivo de contexto é significativamente mais curto do que o comprimento de contexto suportado, com a precisão a diminuir à medida que a janela de contexto cresce. O nosso estudo também salienta o ponto importante de que as contagens de tokens de diferentes tokenizadores não devem ser comparadas diretamente – estas correspondem frequentemente a números substancialmente diferentes de caracteres escritos. Disponibilizamos o nosso código e os dados experimentais de contexto longo.
English
As the context limits of Large Language Models (LLMs) increase, the range of
possible applications and downstream functions broadens. In many real-world
tasks, decisions depend on details scattered across collections of often
disparate documents containing mostly irrelevant information. Long-context LLMs
appear well-suited to this form of complex information retrieval and reasoning,
which has traditionally proven costly and time-consuming. However, although the
development of longer context models has seen rapid gains in recent years, our
understanding of how effectively LLMs use their context has not kept pace. To
address this, we conduct a set of retrieval experiments designed to evaluate
the capabilities of 17 leading LLMs, such as their ability to follow threads of
information through the context window. Strikingly, we find that many models
are remarkably threadsafe: capable of simultaneously following multiple threads
without significant loss in performance. Still, for many models, we find the
effective context limit is significantly shorter than the supported context
length, with accuracy decreasing as the context window grows. Our study also
highlights the important point that token counts from different tokenizers
should not be directly compared -- they often correspond to substantially
different numbers of written characters. We release our code and long-context
experimental data.