PaperSearchQA: RLVRを用いた科学論文の検索と推論の学習
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
January 26, 2026
著者: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy
cs.AI
要旨
検索エージェントは、質問に答えるために推論を行い知識ベース(またはウェブ)を検索する言語モデル(LM)である。最近の手法では、検証可能な報酬を用いた強化学習(RLVR)によって最終的な回答の正確性のみを教師信号として与える。既存のRLVR検索エージェントの多くは一般領域の質問応答(QA)を扱っており、科学、工学、医学における技術的なAIシステムへの関連性が限られている。本研究では、科学論文を検索・推論するエージェントの訓練を提案する。これは技術的な質問応答能力を評価し、実際の科学者にとって直接的に関連があり、将来のAI Scientistシステムにおいて核心的な能力となる。具体的には、1600万件の生物医学論文抄録からなる検索コーパスを公開し、このコーパスから回答可能な6万サンプルからなる難易度の高いファクトイドQAデータセット「PaperSearchQA」とベンチマークを構築した。この環境下で検索エージェントを訓練し、非RL検索ベースラインを上回る性能を達成した。さらに定量的分析を実施し、計画立案、推論、自己検証といった興味深いエージェントの振る舞いを観察した。当該コーパス、データセット、ベンチマークは、RLVR訓練用の汎用コードベースSearch-R1で利用可能であり、https://huggingface.co/collections/jmhb/papersearchqa で公開している。最後に、我々のデータ作成手法は拡張性が高く、他の科学分野へ容易に応用可能である。
English
Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.