Repenser la recherche intensive en raisonnement : Évaluer et faire progresser les systèmes de recherche dans les systèmes de recherche agentiques

Résumé

Le raisonnement intensif en matière de récupération vise à identifier des preuves qui soutiennent un raisonnement en aval plutôt que de simplement correspondre à une similarité thématique. Cette capacité est de plus en plus importante pour les systèmes de recherche agentiques, où les récupérateurs doivent fournir des preuves complémentaires tout au long d'un processus itératif de recherche et de synthèse. Cependant, les travaux existants restent limités tant en évaluation qu'en entraînement : des benchmarks comme BRIGHT fournissent des ensembles de références restreints et évaluent les récupérateurs de manière isolée, tandis que les corpus d'entraînement synthétiques optimisent souvent la pertinence d'un seul passage plutôt que la construction d'un portefeuille de preuves. Nous présentons BRIGHT-Pro, un benchmark annoté par des experts qui étend chaque requête avec des preuves de référence multi-aspects et évalue les récupérateurs selon des protocoles de recherche statiques et agentiques. Nous construisons également RTriever-Synth, un corpus synthétique à décomposition aspectuelle qui génère des positifs complémentaires et des négatifs difficiles conditionnés par les positifs, et l'utilisons pour affiner RTriever-4B (issu de Qwen3-Embedding-4B) via LoRA. Les expériences menées sur des récupérateurs lexicaux, généralistes et à raisonnement intensif montrent que l'évaluation sensible aux aspects et agentique révèle des comportements masqués par les métriques standard, tandis que RTriever-4B améliore considérablement son modèle de base.

English

Reasoning-intensive retrieval aims to surface evidence that supports downstream reasoning rather than merely matching topical similarity. This capability is increasingly important for agentic search systems, where retrievers must provide complementary evidence across iterative search and synthesis. However, existing work remains limited on both evaluation and training: benchmarks such as BRIGHT provide narrow gold sets and evaluate retrievers in isolation, while synthetic training corpora often optimize single-passage relevance rather than evidence portfolio construction. We introduce BRIGHT-Pro, an expert-annotated benchmark that expands each query with multi-aspect gold evidence and evaluates retrievers under both static and agentic search protocols. We further construct RTriever-Synth, an aspect-decomposed synthetic corpus that generates complementary positives and positive-conditioned hard negatives, and use it to LoRA fine-tune RTriever-4B from Qwen3-Embedding-4B. Experiments across lexical, general-purpose, and reasoning-intensive retrievers show that aspect-aware and agentic evaluation expose behaviors hidden by standard metrics, while RTriever-4B substantially improves over its base model.

Repenser la recherche intensive en raisonnement : Évaluer et faire progresser les systèmes de recherche dans les systèmes de recherche agentiques

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

Résumé

Support