BRIGHT: Реалистичный и сложный бенчмарк для поиска с высокой нагрузкой на рассуждения
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
July 16, 2024
Авторы: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
cs.AI
Аннотация
Существующие бенчмарки по поиску информации в основном состоят из запросов, направленных на получение информации (например, агрегированные вопросы из поисковых систем), где обычно достаточно ключевого или семантического поиска. Однако многие сложные запросы из реального мира требуют глубокого рассуждения для идентификации соответствующих документов, выходящих за пределы поверхностного сопоставления форм. Например, для поиска документации по вопросу о кодировании требуется понимание логики и синтаксиса используемых функций. Для более точной оценки поиска по таким сложным запросам мы представляем BRIGHT - первый бенчмарк по текстовому поиску, требующий интенсивного рассуждения для извлечения соответствующих документов. BRIGHT состоит из 1 398 запросов из реального мира, собранных из различных областей (таких как экономика, психология, робототехника, инженерия программного обеспечения, науки о Земле и т. д.), полученных из естественных и тщательно подобранных данных людей. Обширное тестирование показывает, что даже передовые модели поиска показывают плохие результаты на BRIGHT. Ведущая модель на доске лидеров MTEB [38], достигающая показателя 59.0 nDCG@10, показывает результат nDCG@10 18.0 на BRIGHT. Мы также демонстрируем, что добавление запросов с рассуждениями "Цепочка мыслей", созданными большими языковыми моделями (LLM), улучшает производительность на до 12.2 пункта. Более того, BRIGHT устойчив к утечкам данных во время предварительного обучения моделей, что мы подтверждаем, показывая схожую производительность даже при включении документов из бенчмарка в обучающие данные. Мы считаем, что BRIGHT открывает путь для будущих исследований по системам поиска в более реалистичных и сложных условиях. Наш код и данные доступны по адресу https://brightbenchmark.github.io.
English
Existing retrieval benchmarks primarily consist of information-seeking
queries (e.g., aggregated questions from search engines) where keyword or
semantic-based retrieval is usually sufficient. However, many complex
real-world queries require in-depth reasoning to identify relevant documents
that go beyond surface form matching. For example, finding documentation for a
coding question requires understanding the logic and syntax of the functions
involved. To better benchmark retrieval on such challenging queries, we
introduce BRIGHT, the first text retrieval benchmark that requires intensive
reasoning to retrieve relevant documents. BRIGHT is constructed from the 1,398
real-world queries collected from diverse domains (such as economics,
psychology, robotics, software engineering, earth sciences, etc.), sourced from
naturally occurring or carefully curated human data. Extensive evaluation
reveals that even state-of-the-art retrieval models perform poorly on BRIGHT.
The leading model on the MTEB leaderboard [38 ], which achieves a score of 59.0
nDCG@10,2 produces a score of nDCG@10 of 18.0 on BRIGHT. We further demonstrate
that augmenting queries with Chain-of-Thought reasoning generated by large
language models (LLMs) improves performance by up to 12.2 points. Moreover,
BRIGHT is robust against data leakage during pretraining of the benchmarked
models as we validate by showing similar performance even when documents from
the benchmark are included in the training data. We believe that BRIGHT paves
the way for future research on retrieval systems in more realistic and
challenging settings. Our code and data are available at
https://brightbenchmark.github.io.Summary
AI-Generated Summary