BRIGHT: Un banco de pruebas realista y desafiante para la recuperación intensiva de razonamiento.
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
July 16, 2024
Autores: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
cs.AI
Resumen
Los benchmarks de recuperación existentes consisten principalmente en consultas de búsqueda de información (por ejemplo, preguntas agregadas de motores de búsqueda) donde la recuperación basada en palabras clave o semántica suele ser suficiente. Sin embargo, muchas consultas complejas del mundo real requieren un razonamiento profundo para identificar documentos relevantes que van más allá de la coincidencia en la forma superficial. Por ejemplo, encontrar documentación para una pregunta de codificación requiere comprender la lógica y la sintaxis de las funciones involucradas. Para mejorar la evaluación de la recuperación en tales consultas desafiantes, presentamos BRIGHT, el primer benchmark de recuperación de texto que requiere un razonamiento intensivo para recuperar documentos relevantes. BRIGHT se construye a partir de 1,398 consultas del mundo real recopiladas de diversos dominios (como economía, psicología, robótica, ingeniería de software, ciencias de la tierra, etc.), obtenidas de datos humanos naturalmente ocurridos o cuidadosamente seleccionados. Una evaluación exhaustiva revela que incluso los modelos de recuperación de vanguardia tienen un bajo rendimiento en BRIGHT. El modelo líder en la tabla de clasificación MTEB [38], que alcanza una puntuación de 59.0 nDCG@10, produce una puntuación de nDCG@10 de 18.0 en BRIGHT. Además, demostramos que la mejora de las consultas con razonamiento de Cadena de Pensamiento generado por modelos de lenguaje grandes (LLMs) mejora el rendimiento hasta en 12.2 puntos. Además, BRIGHT es robusto frente a la fuga de datos durante el preentrenamiento de los modelos evaluados, como validamos mostrando un rendimiento similar incluso cuando se incluyen documentos del benchmark en los datos de entrenamiento. Creemos que BRIGHT allana el camino para futuras investigaciones sobre sistemas de recuperación en entornos más realistas y desafiantes. Nuestro código y datos están disponibles en https://brightbenchmark.github.io.
English
Existing retrieval benchmarks primarily consist of information-seeking
queries (e.g., aggregated questions from search engines) where keyword or
semantic-based retrieval is usually sufficient. However, many complex
real-world queries require in-depth reasoning to identify relevant documents
that go beyond surface form matching. For example, finding documentation for a
coding question requires understanding the logic and syntax of the functions
involved. To better benchmark retrieval on such challenging queries, we
introduce BRIGHT, the first text retrieval benchmark that requires intensive
reasoning to retrieve relevant documents. BRIGHT is constructed from the 1,398
real-world queries collected from diverse domains (such as economics,
psychology, robotics, software engineering, earth sciences, etc.), sourced from
naturally occurring or carefully curated human data. Extensive evaluation
reveals that even state-of-the-art retrieval models perform poorly on BRIGHT.
The leading model on the MTEB leaderboard [38 ], which achieves a score of 59.0
nDCG@10,2 produces a score of nDCG@10 of 18.0 on BRIGHT. We further demonstrate
that augmenting queries with Chain-of-Thought reasoning generated by large
language models (LLMs) improves performance by up to 12.2 points. Moreover,
BRIGHT is robust against data leakage during pretraining of the benchmarked
models as we validate by showing similar performance even when documents from
the benchmark are included in the training data. We believe that BRIGHT paves
the way for future research on retrieval systems in more realistic and
challenging settings. Our code and data are available at
https://brightbenchmark.github.io.Summary
AI-Generated Summary