BRIGHT: Un Benchmark Realistico e Impegnativo per il Recupero Basato su Ragionamento Intensivo
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
July 16, 2024
Autori: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
cs.AI
Abstract
I benchmark di retrieval esistenti consistono principalmente in query di ricerca di informazioni (ad esempio, domande aggregate da motori di ricerca) dove il retrieval basato su parole chiave o semantica è solitamente sufficiente. Tuttavia, molte query complesse del mondo reale richiedono un ragionamento approfondito per identificare documenti rilevanti che vanno oltre il semplice matching superficiale. Ad esempio, trovare la documentazione per una domanda di codifica richiede la comprensione della logica e della sintassi delle funzioni coinvolte. Per valutare meglio il retrieval su query così impegnative, introduciamo BRIGHT, il primo benchmark di retrieval testuale che richiede un ragionamento intensivo per recuperare documenti rilevanti. BRIGHT è costruito a partire da 1.398 query del mondo reale raccolte da domini diversi (come economia, psicologia, robotica, ingegneria del software, scienze della terra, ecc.), provenienti da dati umani naturalmente occorrenti o accuratamente curati. Una valutazione estensiva rivela che anche i modelli di retrieval all'avanguardia performano male su BRIGHT. Il modello leader nella classifica MTEB [38], che ottiene un punteggio di 59.0 nDCG@10, produce un punteggio di nDCG@10 di 18.0 su BRIGHT. Dimostriamo inoltre che arricchire le query con il ragionamento a catena di pensiero (Chain-of-Thought) generato da modelli linguistici di grandi dimensioni (LLM) migliora le prestazioni fino a 12.2 punti. Inoltre, BRIGHT è robusto contro la perdita di dati durante il pretraining dei modelli valutati, come validiamo mostrando prestazioni simili anche quando i documenti del benchmark sono inclusi nei dati di addestramento. Crediamo che BRIGHT apra la strada a future ricerche sui sistemi di retrieval in contesti più realistici e impegnativi. Il nostro codice e i dati sono disponibili su https://brightbenchmark.github.io.
English
Existing retrieval benchmarks primarily consist of information-seeking
queries (e.g., aggregated questions from search engines) where keyword or
semantic-based retrieval is usually sufficient. However, many complex
real-world queries require in-depth reasoning to identify relevant documents
that go beyond surface form matching. For example, finding documentation for a
coding question requires understanding the logic and syntax of the functions
involved. To better benchmark retrieval on such challenging queries, we
introduce BRIGHT, the first text retrieval benchmark that requires intensive
reasoning to retrieve relevant documents. BRIGHT is constructed from the 1,398
real-world queries collected from diverse domains (such as economics,
psychology, robotics, software engineering, earth sciences, etc.), sourced from
naturally occurring or carefully curated human data. Extensive evaluation
reveals that even state-of-the-art retrieval models perform poorly on BRIGHT.
The leading model on the MTEB leaderboard [38 ], which achieves a score of 59.0
nDCG@10,2 produces a score of nDCG@10 of 18.0 on BRIGHT. We further demonstrate
that augmenting queries with Chain-of-Thought reasoning generated by large
language models (LLMs) improves performance by up to 12.2 points. Moreover,
BRIGHT is robust against data leakage during pretraining of the benchmarked
models as we validate by showing similar performance even when documents from
the benchmark are included in the training data. We believe that BRIGHT paves
the way for future research on retrieval systems in more realistic and
challenging settings. Our code and data are available at
https://brightbenchmark.github.io.