BRIGHT : Un benchmark réaliste et exigeant pour la recherche intensive en raisonnement
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
July 16, 2024
Auteurs: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
cs.AI
Résumé
Les benchmarks de recherche existants sont principalement composés de requêtes de recherche d'information (par exemple, des questions agrégées provenant de moteurs de recherche) pour lesquelles une recherche basée sur des mots-clés ou sur la sémantique est généralement suffisante. Cependant, de nombreuses requêtes complexes du monde réel nécessitent un raisonnement approfondi pour identifier les documents pertinents qui vont au-delà d'une correspondance superficielle. Par exemple, trouver de la documentation pour une question de codage nécessite de comprendre la logique et la syntaxe des fonctions impliquées. Pour mieux évaluer la recherche sur de telles requêtes difficiles, nous introduisons BRIGHT, le premier benchmark de recherche de texte qui nécessite un raisonnement intensif pour retrouver les documents pertinents. BRIGHT est construit à partir de 1 398 requêtes du monde réel collectées dans divers domaines (tels que l'économie, la psychologie, la robotique, le génie logiciel, les sciences de la Terre, etc.), provenant de données humaines naturellement existantes ou soigneusement sélectionnées. Une évaluation approfondie révèle que même les modèles de recherche les plus avancés obtiennent de mauvais résultats sur BRIGHT. Le modèle en tête du classement MTEB [38], qui atteint un score de 59,0 nDCG@10, produit un score de nDCG@10 de 18,0 sur BRIGHT. Nous démontrons en outre que l'enrichissement des requêtes avec un raisonnement en chaîne de pensée généré par des modèles de langage de grande taille (LLMs) améliore les performances jusqu'à 12,2 points. De plus, BRIGHT est robuste contre les fuites de données lors du pré-entraînement des modèles évalués, comme nous le validons en montrant des performances similaires même lorsque les documents du benchmark sont inclus dans les données d'entraînement. Nous croyons que BRIGHT ouvre la voie à des recherches futures sur les systèmes de recherche dans des contextes plus réalistes et plus difficiles. Notre code et nos données sont disponibles à l'adresse https://brightbenchmark.github.io.
English
Existing retrieval benchmarks primarily consist of information-seeking
queries (e.g., aggregated questions from search engines) where keyword or
semantic-based retrieval is usually sufficient. However, many complex
real-world queries require in-depth reasoning to identify relevant documents
that go beyond surface form matching. For example, finding documentation for a
coding question requires understanding the logic and syntax of the functions
involved. To better benchmark retrieval on such challenging queries, we
introduce BRIGHT, the first text retrieval benchmark that requires intensive
reasoning to retrieve relevant documents. BRIGHT is constructed from the 1,398
real-world queries collected from diverse domains (such as economics,
psychology, robotics, software engineering, earth sciences, etc.), sourced from
naturally occurring or carefully curated human data. Extensive evaluation
reveals that even state-of-the-art retrieval models perform poorly on BRIGHT.
The leading model on the MTEB leaderboard [38 ], which achieves a score of 59.0
nDCG@10,2 produces a score of nDCG@10 of 18.0 on BRIGHT. We further demonstrate
that augmenting queries with Chain-of-Thought reasoning generated by large
language models (LLMs) improves performance by up to 12.2 points. Moreover,
BRIGHT is robust against data leakage during pretraining of the benchmarked
models as we validate by showing similar performance even when documents from
the benchmark are included in the training data. We believe that BRIGHT paves
the way for future research on retrieval systems in more realistic and
challenging settings. Our code and data are available at
https://brightbenchmark.github.io.Summary
AI-Generated Summary