BRIGHT: Um Benchmark Realista e Desafiador para Recuperação Intensiva de Raciocínio
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
July 16, 2024
Autores: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
cs.AI
Resumo
Os benchmarks de recuperação existentes consistem principalmente em consultas de busca de informações (por exemplo, perguntas agregadas de mecanismos de busca) em que a recuperação baseada em palavras-chave ou semântica geralmente é suficiente. No entanto, muitas consultas complexas do mundo real exigem um raciocínio aprofundado para identificar documentos relevantes que vão além da correspondência de forma superficial. Por exemplo, encontrar documentação para uma pergunta de codificação requer entender a lógica e a sintaxe das funções envolvidas. Para melhorar os benchmarks de recuperação em tais consultas desafiadoras, apresentamos o BRIGHT, o primeiro benchmark de recuperação de texto que requer um raciocínio intensivo para recuperar documentos relevantes. O BRIGHT é construído a partir de 1.398 consultas do mundo real coletadas de diversos domínios (como economia, psicologia, robótica, engenharia de software, ciências da terra, etc.), provenientes de dados humanos naturalmente ocorrentes ou cuidadosamente selecionados. Avaliações extensas revelam que até mesmo os modelos de recuperação de última geração têm desempenho ruim no BRIGHT. O modelo líder no quadro de líderes do MTEB [38], que alcança uma pontuação de 59,0 nDCG@10, produz uma pontuação de nDCG@10 de 18,0 no BRIGHT. Demonstramos ainda que a inclusão de raciocínio Chain-of-Thought gerado por grandes modelos de linguagem (LLMs) melhora o desempenho em até 12,2 pontos. Além disso, o BRIGHT é robusto contra vazamentos de dados durante o pré-treinamento dos modelos avaliados, como validamos mostrando desempenho semelhante mesmo quando documentos do benchmark são incluídos nos dados de treinamento. Acreditamos que o BRIGHT abre caminho para pesquisas futuras em sistemas de recuperação em cenários mais realistas e desafiadores. Nosso código e dados estão disponíveis em https://brightbenchmark.github.io.
English
Existing retrieval benchmarks primarily consist of information-seeking
queries (e.g., aggregated questions from search engines) where keyword or
semantic-based retrieval is usually sufficient. However, many complex
real-world queries require in-depth reasoning to identify relevant documents
that go beyond surface form matching. For example, finding documentation for a
coding question requires understanding the logic and syntax of the functions
involved. To better benchmark retrieval on such challenging queries, we
introduce BRIGHT, the first text retrieval benchmark that requires intensive
reasoning to retrieve relevant documents. BRIGHT is constructed from the 1,398
real-world queries collected from diverse domains (such as economics,
psychology, robotics, software engineering, earth sciences, etc.), sourced from
naturally occurring or carefully curated human data. Extensive evaluation
reveals that even state-of-the-art retrieval models perform poorly on BRIGHT.
The leading model on the MTEB leaderboard [38 ], which achieves a score of 59.0
nDCG@10,2 produces a score of nDCG@10 of 18.0 on BRIGHT. We further demonstrate
that augmenting queries with Chain-of-Thought reasoning generated by large
language models (LLMs) improves performance by up to 12.2 points. Moreover,
BRIGHT is robust against data leakage during pretraining of the benchmarked
models as we validate by showing similar performance even when documents from
the benchmark are included in the training data. We believe that BRIGHT paves
the way for future research on retrieval systems in more realistic and
challenging settings. Our code and data are available at
https://brightbenchmark.github.io.