Herziening van Redeneergericht Zoeken: Evaluatie en Verbetering van Retrievers in Agent-gebaseerde Zoeksystemen

Samenvatting

Reasoning-intensief retrieval heeft als doel bewijsmateriaal naar voren te halen dat downstream redenering ondersteunt, in plaats van slechts overeenkomst in onderwerpsgelijkenis. Deze capaciteit wordt steeds belangrijker voor agent-gebaseerde zoeksystemen, waarbij retrievers complementair bewijsmateriaal moeten aanleveren tijdens iteratief zoeken en synthese. Bestaand werk blijft echter beperkt op zowel evaluatie- als trainingsvlak: benchmarks zoals BRIGHT bieden smalle gold sets en evalueren retrievers geïsoleerd, terwijl synthetische trainingscorpora vaak optimaliseren voor relevantie van een enkele passage in plaats van voor de constructie van een bewijsmateriaal-portfolio. Wij introduceren BRIGHT-Pro, een door experts geannoteerde benchmark die elke query uitbreidt met multi-aspect gold evidence en retrievers evalueert onder zowel statische als agent-gebaseerde zoekprotocollen. Verder construeren wij RTriever-Synth, een aspect-gedecomponeerd synthetisch corpus dat complementaire positieve voorbeelden en positief-geconditioneerde harde negatieven genereert, en gebruiken dit om RTriever-4B via LoRA fine-tuning aan te passen vanuit Qwen3-Embedding-4B. Experimenten met lexicale, algemene en reasoning-intensieve retrievers tonen aan dat aspect-bewuste en agent-gebaseerde evaluatie gedrag blootlegt dat verborgen blijft onder standaard metrieken, terwijl RTriever-4B een substantiële verbetering laat zien ten opzichte van het basismodel.

English

Reasoning-intensive retrieval aims to surface evidence that supports downstream reasoning rather than merely matching topical similarity. This capability is increasingly important for agentic search systems, where retrievers must provide complementary evidence across iterative search and synthesis. However, existing work remains limited on both evaluation and training: benchmarks such as BRIGHT provide narrow gold sets and evaluate retrievers in isolation, while synthetic training corpora often optimize single-passage relevance rather than evidence portfolio construction. We introduce BRIGHT-Pro, an expert-annotated benchmark that expands each query with multi-aspect gold evidence and evaluates retrievers under both static and agentic search protocols. We further construct RTriever-Synth, an aspect-decomposed synthetic corpus that generates complementary positives and positive-conditioned hard negatives, and use it to LoRA fine-tune RTriever-4B from Qwen3-Embedding-4B. Experiments across lexical, general-purpose, and reasoning-intensive retrievers show that aspect-aware and agentic evaluation expose behaviors hidden by standard metrics, while RTriever-4B substantially improves over its base model.

Herziening van Redeneergericht Zoeken: Evaluatie en Verbetering van Retrievers in Agent-gebaseerde Zoeksystemen

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

Samenvatting

Support