ChatPaper.aiChatPaper

BRIGHT: Een realistisch en uitdagend benchmark voor intensief redeneervergelijkend ophalen van informatie

BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

July 16, 2024
Auteurs: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
cs.AI

Samenvatting

Bestaande retrievalbenchmarks bestaan voornamelijk uit informatiezoekende queries (bijv. geaggregeerde vragen van zoekmachines) waarbij op trefwoorden of semantiek gebaseerde retrieval meestal voldoende is. Veel complexe, real-world queries vereisen echter diepgaande redenering om relevante documenten te identificeren die verder gaan dan oppervlakkige vormovereenkomst. Het vinden van documentatie voor een programmeervraag vereist bijvoorbeeld begrip van de logica en syntaxis van de betrokken functies. Om retrieval beter te benchmarken op dergelijke uitdagende queries, introduceren we BRIGHT, de eerste tekstretrievalbenchmark die intensieve redenering vereist om relevante documenten te vinden. BRIGHT is opgebouwd uit 1.398 real-world queries uit diverse domeinen (zoals economie, psychologie, robotica, software engineering, aardwetenschappen, etc.), afkomstig van natuurlijk voorkomende of zorgvuldig samengestelde menselijke data. Uitgebreide evaluatie toont aan dat zelfs state-of-the-art retrievalmodellen slecht presteren op BRIGHT. Het leidende model op de MTEB-leaderboard [38], dat een score van 59.0 nDCG@10 behaalt, produceert een score van nDCG@10 van 18.0 op BRIGHT. We tonen verder aan dat het verrijken van queries met Chain-of-Thought-redenering gegenereerd door grote taalmodellen (LLMs) de prestaties met tot 12.2 punten verbetert. Bovendien is BRIGHT robuust tegen datalekken tijdens de pretraining van de gebenchmarkte modellen, zoals we valideren door vergelijkbare prestaties te laten zien, zelfs wanneer documenten uit de benchmark in de trainingsdata zijn opgenomen. We geloven dat BRIGHT de weg vrijmaakt voor toekomstig onderzoek naar retrievalsystemen in meer realistische en uitdagende omgevingen. Onze code en data zijn beschikbaar op https://brightbenchmark.github.io.
English
Existing retrieval benchmarks primarily consist of information-seeking queries (e.g., aggregated questions from search engines) where keyword or semantic-based retrieval is usually sufficient. However, many complex real-world queries require in-depth reasoning to identify relevant documents that go beyond surface form matching. For example, finding documentation for a coding question requires understanding the logic and syntax of the functions involved. To better benchmark retrieval on such challenging queries, we introduce BRIGHT, the first text retrieval benchmark that requires intensive reasoning to retrieve relevant documents. BRIGHT is constructed from the 1,398 real-world queries collected from diverse domains (such as economics, psychology, robotics, software engineering, earth sciences, etc.), sourced from naturally occurring or carefully curated human data. Extensive evaluation reveals that even state-of-the-art retrieval models perform poorly on BRIGHT. The leading model on the MTEB leaderboard [38 ], which achieves a score of 59.0 nDCG@10,2 produces a score of nDCG@10 of 18.0 on BRIGHT. We further demonstrate that augmenting queries with Chain-of-Thought reasoning generated by large language models (LLMs) improves performance by up to 12.2 points. Moreover, BRIGHT is robust against data leakage during pretraining of the benchmarked models as we validate by showing similar performance even when documents from the benchmark are included in the training data. We believe that BRIGHT paves the way for future research on retrieval systems in more realistic and challenging settings. Our code and data are available at https://brightbenchmark.github.io.
PDF132February 8, 2026