Neubewertung ressourcenintensiver Abfragen: Evaluierung und Weiterentwicklung von Retrievers in agentenbasierten Suchsystemen

Zusammenfassung

Reasoning-intensive Retrieval zielt darauf ab, Beweise zu identifizieren, die nachgelagerte Schlussfolgerungen unterstützen, anstatt lediglich thematische Ähnlichkeit abzugleichen. Diese Fähigkeit wird zunehmend wichtiger für agentenbasierte Suchsysteme, bei denen Retriever komplementäre Beweise über iterative Such- und Syntheseschritte hinweg bereitstellen müssen. Bisherige Arbeiten weisen jedoch sowohl in der Evaluation als auch im Training Einschränkungen auf: Benchmarks wie BRIGHT bieten begrenzte Goldstandards und evaluieren Retriever isoliert, während synthetische Trainingskorpora oft die Einzelpassagen-Relevanz optimieren anstatt den Aufbau eines Beweisportfolios. Wir stellen BRIGHT-Pro vor, einen expertannotierten Benchmark, der jede Anfrage um mehr-aspektige Goldbeweise erweitert und Retriever sowohl unter statischen als auch agentenbasierten Suchprotokollen evaluiert. Weiterhin konstruieren wir RTriever-Synth, ein aspektzerlegtes synthetisches Korpus, das komplementäre Positive und positiv-konditionierte Hard Negatives generiert, und nutzen es, um RTriever-4B aus Qwen3-Embedding-4B per LoRA zu finetunen. Experimente mit lexikalischen, allgemeinen und reasoning-intensiven Retrievern zeigen, dass aspektbewusste und agentenbasierte Evaluation Verhaltensweisen aufdecken, die von Standardmetriken verborgen bleiben, während RTriever-4B sein Basismodell erheblich übertrifft.

English

Reasoning-intensive retrieval aims to surface evidence that supports downstream reasoning rather than merely matching topical similarity. This capability is increasingly important for agentic search systems, where retrievers must provide complementary evidence across iterative search and synthesis. However, existing work remains limited on both evaluation and training: benchmarks such as BRIGHT provide narrow gold sets and evaluate retrievers in isolation, while synthetic training corpora often optimize single-passage relevance rather than evidence portfolio construction. We introduce BRIGHT-Pro, an expert-annotated benchmark that expands each query with multi-aspect gold evidence and evaluates retrievers under both static and agentic search protocols. We further construct RTriever-Synth, an aspect-decomposed synthetic corpus that generates complementary positives and positive-conditioned hard negatives, and use it to LoRA fine-tune RTriever-4B from Qwen3-Embedding-4B. Experiments across lexical, general-purpose, and reasoning-intensive retrievers show that aspect-aware and agentic evaluation expose behaviors hidden by standard metrics, while RTriever-4B substantially improves over its base model.

Neubewertung ressourcenintensiver Abfragen: Evaluierung und Weiterentwicklung von Retrievers in agentenbasierten Suchsystemen

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

Zusammenfassung

Support