PaperSearchQA: Leren zoeken en redeneren over wetenschappelijke artikelen met RLVR
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
January 26, 2026
Auteurs: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy
cs.AI
Samenvatting
Zoekagents zijn taalmodelen (LM's) die redeneren en kennisbanken (of het web) doorzoeken om vragen te beantwoorden; recente methodes sturen alleen de uiteindelijke antwoordnauwkeurigheid aan met reinforcement learning met verifieerbare beloningen (RLVR). De meeste RLVR-zoekagents richten zich op vraag-antwoordtaken in algemene domeinen, wat hun relevantie beperkt voor technische AI-systemen in wetenschap, techniek en geneeskunde. In dit werk stellen we voor om agents te trainen om wetenschappelijke artikelen te doorzoeken en erover te redeneren – dit test technische vraag-antwoordvaardigheden, het is direct relevant voor echte wetenschappers, en de capaciteiten zullen cruciaal zijn voor toekomstige AI Wetenschapper-systemen. Concreet brengen we een zoekcorpus uit met 16 miljoen biomedische artikelabstracts en construeren we een uitdagende feitelijke vraag-antwoorddataset genaamd PaperSearchQA met 60.000 voorbeelden die uit het corpus kunnen worden beantwoord, samen met benchmarks. We trainen zoekagents in deze omgeving om niet-RL-retrieval-baselines te overtreffen; we voeren ook verdere kwantitatieve analyse uit en observeren interessante agentgedragingen zoals plannen, redeneren en zelfverificatie. Ons corpus, datasets en benchmarks zijn bruikbaar met de populaire Search-R1-codebase voor RLVR-training en vrijgegeven op https://huggingface.co/collections/jmhb/papersearchqa. Ten slotte zijn onze methoden voor datacreatie schaalbaar en eenvoudig uitbreidbaar naar andere wetenschappelijke domeinen.
English
Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.