ChatPaper.aiChatPaper

Enhebrando la Aguja: ¿Pueden los LLM Seguir Hilos a Través de Alfarjes de Casi un Millón de Elementos?

Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

November 7, 2024
Autores: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI

Resumen

A medida que aumentan los límites de contexto de los Modelos de Lenguaje a Gran Escala (LLM), se amplía el rango de aplicaciones posibles y funciones derivadas. En muchas tareas del mundo real, las decisiones dependen de detalles dispersos en colecciones de documentos, a menudo dispares, que contienen mayoritariamente información irrelevante. Los LLM de contexto largo parecen estar bien adaptados a esta forma de recuperación y razonamiento de información compleja, que tradicionalmente ha demostrado ser costosa y requiere mucho tiempo. Sin embargo, aunque el desarrollo de modelos de contexto más largo ha experimentado avances rápidos en los últimos años, nuestra comprensión de cuán efectivamente los LLM utilizan su contexto no ha avanzado al mismo ritmo. Para abordar esto, realizamos una serie de experimentos de recuperación diseñados para evaluar las capacidades de 17 LLM líderes, como su capacidad para seguir hilos de información a través de la ventana de contexto. Sorprendentemente, encontramos que muchos modelos son notablemente robustos para seguir hilos: capaces de seguir múltiples hilos simultáneamente sin una pérdida significativa de rendimiento. No obstante, para muchos modelos, encontramos que el límite efectivo de contexto es significativamente más corto que la longitud de contexto admitida, disminuyendo la precisión a medida que crece la ventana de contexto. Nuestro estudio también destaca el punto importante de que los recuentos de tokens de diferentes tokenizadores no deben compararse directamente, ya que a menudo corresponden a números sustancialmente diferentes de caracteres escritos. Publicamos nuestro código y los datos experimentales de contexto largo.
English
As the context limits of Large Language Models (LLMs) increase, the range of possible applications and downstream functions broadens. In many real-world tasks, decisions depend on details scattered across collections of often disparate documents containing mostly irrelevant information. Long-context LLMs appear well-suited to this form of complex information retrieval and reasoning, which has traditionally proven costly and time-consuming. However, although the development of longer context models has seen rapid gains in recent years, our understanding of how effectively LLMs use their context has not kept pace. To address this, we conduct a set of retrieval experiments designed to evaluate the capabilities of 17 leading LLMs, such as their ability to follow threads of information through the context window. Strikingly, we find that many models are remarkably threadsafe: capable of simultaneously following multiple threads without significant loss in performance. Still, for many models, we find the effective context limit is significantly shorter than the supported context length, with accuracy decreasing as the context window grows. Our study also highlights the important point that token counts from different tokenizers should not be directly compared -- they often correspond to substantially different numbers of written characters. We release our code and long-context experimental data.
PDF223December 4, 2025