ChatPaper.aiChatPaper

推論集約型検索の再考:エージェント型検索システムにおける検索技術の評価と進展 (注:タイトルは「推論を要する検索」ではなく「推論集約型検索」と訳し、学術論文でよく使われる表現に合わせました。「Agentic Search Systems」は「自律型検索システム」や「能動的検索システム」などの訳も可能ですが、近年のAI研究では「エージェント型」が定着しつつあるためこちらを採用しました。)

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

May 5, 2026
著者: Yilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang, Chen Zhao, Arman Cohan
cs.AI

要旨

推論集約型検索は、単なるトピックの類似性マッチングではなく、下流の推論を支持する証拠を表面化させることを目的としています。この能力は、エージェント型検索システムにおいて、検索器が反復的な検索と統合において相補的な証拠を提供しなければならない場面で重要性を増しています。しかし、既存の研究は評価と訓練の両面で限界があります:BRIGHTなどのベンチマークは限定的な正解セットを提供し、検索器を単体で評価する一方、合成的な訓練コーパスは多くの場合、単一パッセージの関連性を最適化するだけで、証拠ポートフォリオの構築には至りません。我々はBRIGHT-Proを紹介します。これは専門家による注釈が付けられたベンチマークで、各クエリを多面的な正解証拠で拡張し、静的およびエージェント型検索プロトコルの両方で検索器を評価します。さらに、RTriever-Synthを構築しました。これは側面分解された合成的コーパスであり、相補的なポジティブ例とポジティブ条件付きのハードネガティブ例を生成し、これを用いてQwen3-Embedding-4BからRTriever-4BをLoRAファインチューニングします。語彙的、汎用的、および推論集約型検索器にわたる実験により、側面を考慮した評価とエージェント型評価が標準的な指標では隠されていた振る舞いを明らかにすること、またRTriever-4Bがそのベースモデルから大幅に改善されていることが示されました。
English
Reasoning-intensive retrieval aims to surface evidence that supports downstream reasoning rather than merely matching topical similarity. This capability is increasingly important for agentic search systems, where retrievers must provide complementary evidence across iterative search and synthesis. However, existing work remains limited on both evaluation and training: benchmarks such as BRIGHT provide narrow gold sets and evaluate retrievers in isolation, while synthetic training corpora often optimize single-passage relevance rather than evidence portfolio construction. We introduce BRIGHT-Pro, an expert-annotated benchmark that expands each query with multi-aspect gold evidence and evaluates retrievers under both static and agentic search protocols. We further construct RTriever-Synth, an aspect-decomposed synthetic corpus that generates complementary positives and positive-conditioned hard negatives, and use it to LoRA fine-tune RTriever-4B from Qwen3-Embedding-4B. Experiments across lexical, general-purpose, and reasoning-intensive retrievers show that aspect-aware and agentic evaluation expose behaviors hidden by standard metrics, while RTriever-4B substantially improves over its base model.
PDF271May 8, 2026