NeedleBench: ¿Pueden los LLMs realizar recuperación y razonamiento en 1 millón de contextos?
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
July 16, 2024
Autores: Mo Li, Songyang Zhang, Yunxin Liu, Kai Chen
cs.AI
Resumen
Al evaluar las capacidades de largo contexto de los grandes modelos de lenguaje (LLMs), identificar contenido relevante para la consulta de un usuario a partir de documentos originales extensos es un requisito crucial para que cualquier LLM pueda responder preguntas basadas en texto extenso. Presentamos NeedleBench, un marco que consiste en una serie de tareas progresivamente más desafiantes para evaluar las capacidades bilingües de largo contexto, abarcando múltiples intervalos de longitud (4k, 8k, 32k, 128k, 200k, 1000k y más allá) y diferentes rangos de profundidad, permitiendo la inserción estratégica de puntos de datos críticos en diferentes zonas de profundidad de texto para probar rigurosamente las capacidades de recuperación y razonamiento de los modelos en contextos diversos. Utilizamos el marco NeedleBench para evaluar qué tan bien los principales modelos de código abierto pueden identificar información clave relevante para la pregunta y aplicar esa información al razonamiento en textos bilingües extensos. Además, proponemos el Desafío de Rastro Ancestral (ATC) para imitar la complejidad de desafíos de razonamiento lógico que probablemente estén presentes en tareas de largo contexto del mundo real, proporcionando un método sencillo para evaluar LLMs en el manejo de situaciones complejas de largo contexto. Nuestros resultados sugieren que los LLMs actuales tienen un amplio margen de mejora en aplicaciones prácticas de largo contexto, ya que tienen dificultades con la complejidad de desafíos de razonamiento lógico que probablemente estén presentes en tareas de largo contexto del mundo real. Todos los códigos y recursos están disponibles en OpenCompass: https://github.com/open-compass/opencompass.
English
In evaluating the long-context capabilities of large language models (LLMs),
identifying content relevant to a user's query from original long documents is
a crucial prerequisite for any LLM to answer questions based on long text. We
present NeedleBench, a framework consisting of a series of progressively more
challenging tasks for assessing bilingual long-context capabilities, spanning
multiple length intervals (4k, 8k, 32k, 128k, 200k, 1000k, and beyond) and
different depth ranges, allowing the strategic insertion of critical data
points in different text depth zones to rigorously test the retrieval and
reasoning capabilities of models in diverse contexts. We use the NeedleBench
framework to assess how well the leading open-source models can identify key
information relevant to the question and apply that information to reasoning in
bilingual long texts. Furthermore, we propose the Ancestral Trace Challenge
(ATC) to mimic the complexity of logical reasoning challenges that are likely
to be present in real-world long-context tasks, providing a simple method for
evaluating LLMs in dealing with complex long-context situations. Our results
suggest that current LLMs have significant room for improvement in practical
long-context applications, as they struggle with the complexity of logical
reasoning challenges that are likely to be present in real-world long-context
tasks. All codes and resources are available at OpenCompass:
https://github.com/open-compass/opencompass.Summary
AI-Generated Summary