BRIGHT: Ein realistischer und anspruchsvoller Maßstab für abfragesensitive Reasoning.
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
July 16, 2024
Autoren: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
cs.AI
Zusammenfassung
Bestehende Abruf-Benchmarks bestehen hauptsächlich aus informationsbezogenen Anfragen (z. B. aggregierte Fragen von Suchmaschinen), bei denen die Abrufung auf Stichwörtern oder Semantik basiert und in der Regel ausreicht. Viele komplexe Anfragen in der realen Welt erfordern jedoch eine eingehende Argumentation, um relevante Dokumente zu identifizieren, die über oberflächliche Formübereinstimmungen hinausgehen. Beispielsweise erfordert das Auffinden von Dokumentationen für eine Codierungsfrage das Verständnis der Logik und Syntax der beteiligten Funktionen. Um die Abrufung bei solchen anspruchsvollen Anfragen besser zu bewerten, stellen wir BRIGHT vor, den ersten Textabruf-Benchmark, der intensive Argumentation erfordert, um relevante Dokumente abzurufen. BRIGHT wird aus den 1.398 in verschiedenen Bereichen (wie Wirtschaft, Psychologie, Robotik, Softwaretechnik, Erdwissenschaften usw.) gesammelten realen Anfragen erstellt, die aus natürlichen oder sorgfältig kuratierten menschlichen Daten stammen. Eine umfangreiche Bewertung zeigt, dass selbst modernste Abrufmodelle bei BRIGHT schlecht abschneiden. Das führende Modell auf der MTEB-Rangliste [38], das einen Wert von 59,0 nDCG@10 erreicht, erzielt bei BRIGHT einen Wert von nDCG@10 von 18,0. Wir zeigen weiter, dass die Ergänzung von Anfragen mit Chain-of-Thought-Argumentation, die von großen Sprachmodellen (LLMs) generiert wird, die Leistung um bis zu 12,2 Punkte verbessert. Darüber hinaus ist BRIGHT robust gegen Datenlecks während des Vortrainings der benchmarkten Modelle, wie wir durch die Validierung zeigen, dass ähnliche Leistungen erbracht werden, selbst wenn Dokumente aus dem Benchmark in den Trainingsdaten enthalten sind. Wir sind der Ansicht, dass BRIGHT den Weg für zukünftige Forschung zu Abrufsystemen in realistischeren und anspruchsvolleren Umgebungen ebnet. Unser Code und unsere Daten sind unter https://brightbenchmark.github.io verfügbar.
English
Existing retrieval benchmarks primarily consist of information-seeking
queries (e.g., aggregated questions from search engines) where keyword or
semantic-based retrieval is usually sufficient. However, many complex
real-world queries require in-depth reasoning to identify relevant documents
that go beyond surface form matching. For example, finding documentation for a
coding question requires understanding the logic and syntax of the functions
involved. To better benchmark retrieval on such challenging queries, we
introduce BRIGHT, the first text retrieval benchmark that requires intensive
reasoning to retrieve relevant documents. BRIGHT is constructed from the 1,398
real-world queries collected from diverse domains (such as economics,
psychology, robotics, software engineering, earth sciences, etc.), sourced from
naturally occurring or carefully curated human data. Extensive evaluation
reveals that even state-of-the-art retrieval models perform poorly on BRIGHT.
The leading model on the MTEB leaderboard [38 ], which achieves a score of 59.0
nDCG@10,2 produces a score of nDCG@10 of 18.0 on BRIGHT. We further demonstrate
that augmenting queries with Chain-of-Thought reasoning generated by large
language models (LLMs) improves performance by up to 12.2 points. Moreover,
BRIGHT is robust against data leakage during pretraining of the benchmarked
models as we validate by showing similar performance even when documents from
the benchmark are included in the training data. We believe that BRIGHT paves
the way for future research on retrieval systems in more realistic and
challenging settings. Our code and data are available at
https://brightbenchmark.github.io.Summary
AI-Generated Summary