PaperSearchQA: RLVR를 활용한 과학 논문 검색 및 추론 학습
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
January 26, 2026
저자: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy
cs.AI
초록
검색 에이전트는 지식 베이스(또는 웹)를 추론하고 검색하여 질문에 답변하는 언어 모델(LM)입니다. 최근 방법들은 검증 가능한 보상을 활용한 강화 학습(RLVR)을 통해 최종 답변 정확도만을 지도합니다. 대부분의 RLVR 검색 에이전트는 일반 도메인 질의응답(QA)을 다루는데, 이는 과학, 공학, 의학 분야의 기술적 AI 시스템에 대한 관련성을 제한합니다. 본 연구에서는 과학 논문을 검색하고 추론하도록 에이전트를 훈련시키는 방법을 제안합니다. 이는 기술적 질의응답 능력을 평가하며, 실제 과학자들에게 직접적으로 관련되고, 이러한 능력은 미래 AI 과학자 시스템에 핵심적일 것입니다. 구체적으로, 우리는 1,600만 개의 생의학 논문 초록으로 구성된 검색 코퍼스를 공개하고, 이 코퍼스에서 답변이 가능한 6만 개의 샘플을 포함한 PaperSearchQA라는 도전적인 사실형 QA 데이터셋과 벤치마크를 구축했습니다. 우리는 이 환경에서 검색 에이전트를 훈련시켜 비-RL 검색 기준 모델들을 능가하도록 했으며, 추가적인 정량적 분석을 수행하고 계획, 추론, 자기 검증과 같은 흥미로운 에이전트 행동을 관찰했습니다. 우리의 코퍼스, 데이터셋 및 벤치마크는 RLVR 훈련을 위한 인기 있는 Search-R1 코드베이스와 호환되며 https://huggingface.co/collections/jmhb/papersearchqa 에서 공개되었습니다. 마지막으로, 우리의 데이터 생성 방법은 확장 가능하며 다른 과학 분야로 쉽게 확장할 수 있습니다.
English
Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.