Replanteando la Recuperación Intensiva en Razonamiento: Evaluación y Avance de Recuperadores en Sistemas de Búsqueda Agéntica
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
May 5, 2026
Autores: Yilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang, Chen Zhao, Arman Cohan
cs.AI
Resumen
La recuperación intensiva en razonamiento busca hallar evidencia que respalde el razonamiento subsiguiente, en lugar de limitarse a coincidir con la similitud temática. Esta capacidad es cada vez más importante para los sistemas de búsqueda agentivos, donde los recuperadores deben proporcionar evidencia complementaria a lo largo de iteraciones de búsqueda y síntesis. Sin embargo, el trabajo existente sigue siendo limitado tanto en evaluación como en entrenamiento: puntos de referencia como BRIGHT ofrecen conjuntos de referencia estrechos y evalúan los recuperadores de forma aislada, mientras que los corpus de entrenamiento sintéticos a menudo optimizan la relevancia de un solo pasaje en lugar de la construcción de un portafolio de evidencias. Presentamos BRIGHT-Pro, un punto de referencia anotado por expertos que expande cada consulta con evidencia de referencia de múltiples aspectos y evalúa los recuperadores bajo protocolos de búsqueda tanto estáticos como agentivos. Además, construimos RTriever-Synth, un corpus sintético descompuesto por aspectos que genera positivos complementarios y negativos duros condicionados a positivos, y lo utilizamos para afinar mediante LoRA el modelo RTriever-4B a partir de Qwen3-Embedding-4B. Los experimentos con recuperadores léxicos, de propósito general e intensivos en razonamiento muestran que la evaluación consciente de los aspectos y agentiva revela comportamientos ocultos para las métricas estándar, mientras que RTriever-4B mejora sustancialmente a su modelo base.
English
Reasoning-intensive retrieval aims to surface evidence that supports downstream reasoning rather than merely matching topical similarity. This capability is increasingly important for agentic search systems, where retrievers must provide complementary evidence across iterative search and synthesis. However, existing work remains limited on both evaluation and training: benchmarks such as BRIGHT provide narrow gold sets and evaluate retrievers in isolation, while synthetic training corpora often optimize single-passage relevance rather than evidence portfolio construction. We introduce BRIGHT-Pro, an expert-annotated benchmark that expands each query with multi-aspect gold evidence and evaluates retrievers under both static and agentic search protocols. We further construct RTriever-Synth, an aspect-decomposed synthetic corpus that generates complementary positives and positive-conditioned hard negatives, and use it to LoRA fine-tune RTriever-4B from Qwen3-Embedding-4B. Experiments across lexical, general-purpose, and reasoning-intensive retrievers show that aspect-aware and agentic evaluation expose behaviors hidden by standard metrics, while RTriever-4B substantially improves over its base model.