Переосмысление поиска, требующего сложных рассуждений: оценка и развитие поисковых систем в агентно-ориентированных поисковых платформах
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
May 5, 2026
Авторы: Yilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang, Chen Zhao, Arman Cohan
cs.AI
Аннотация
Задача поиска, ориентированного на рассуждения, заключается в выявлении доказательств, которые поддерживают последующие логические выводы, а не просто соответствуют тематическому сходству. Эта способность становится все более важной для агентских поисковых систем, где механизмы поиска должны предоставлять взаимодополняющие доказательства в ходе итеративного поиска и синтеза. Однако существующие работы остаются ограниченными как в области оценки, так и в области обучения: бенчмарки, такие как BRIGHT, предоставляют узкие наборы эталонных данных и оценивают механизмы поиска изолированно, в то время как синтетические обучающие корпуса часто оптимизируют релевантность единичного фрагмента текста, а не построение портфеля доказательств. Мы представляем BRIGHT-Pro — экспертно-размеченный бенчмарк, который расширяет каждый запрос многогранными эталонными доказательствами и оценивает механизмы поиска как в статических, так и в агентских поисковых протоколах. Кроме того, мы создаем RTriever-Synth, аспектно-декомпозированный синтетический корпус, который генерирует взаимодополняющие позитивные примеры и сложные негативные примеры, обусловленные позитивными, и используем его для тонкой настройки LoRA модели RTriever-4B, основанной на Qwen3-Embedding-4B. Эксперименты с лексическими, универсальными и ориентированными на рассуждения механизмами поиска показывают, что аспектно-ориентированная и агентская оценка выявляют поведение, скрытое стандартными метриками, в то время как RTriever-4B существенно превосходит свою базовую модель.
English
Reasoning-intensive retrieval aims to surface evidence that supports downstream reasoning rather than merely matching topical similarity. This capability is increasingly important for agentic search systems, where retrievers must provide complementary evidence across iterative search and synthesis. However, existing work remains limited on both evaluation and training: benchmarks such as BRIGHT provide narrow gold sets and evaluate retrievers in isolation, while synthetic training corpora often optimize single-passage relevance rather than evidence portfolio construction. We introduce BRIGHT-Pro, an expert-annotated benchmark that expands each query with multi-aspect gold evidence and evaluates retrievers under both static and agentic search protocols. We further construct RTriever-Synth, an aspect-decomposed synthetic corpus that generates complementary positives and positive-conditioned hard negatives, and use it to LoRA fine-tune RTriever-4B from Qwen3-Embedding-4B. Experiments across lexical, general-purpose, and reasoning-intensive retrievers show that aspect-aware and agentic evaluation expose behaviors hidden by standard metrics, while RTriever-4B substantially improves over its base model.