PaperSearchQA: Aprendendo a Pesquisar e Raciocinar sobre Artigos Científicos com RLVR
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
January 26, 2026
Autores: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy
cs.AI
Resumo
Os agentes de busca são modelos de linguagem (LMs) que raciocinam e pesquisam em bases de conhecimento (ou na web) para responder a perguntas; métodos recentes supervisionam apenas a precisão da resposta final usando aprendizado por reforço com recompensas verificáveis (RLVR). A maioria dos agentes de busca RLVR aborda QA de domínio geral, o que limita sua relevância para sistemas de IA técnicos em ciência, engenharia e medicina. Neste trabalho, propomos treinar agentes para pesquisar e raciocinar sobre artigos científicos – isso testa a resposta a perguntas técnicas, é diretamente relevante para cientistas reais, e as capacidades serão cruciais para futuros sistemas de Cientista de IA. Concretamente, disponibilizamos um corpus de busca com 16 milhões de resumos de artigos biomédicos e construímos um conjunto de dados desafiador de QA factóide chamado PaperSearchQA com 60 mil amostras respondíveis a partir do corpus, juntamente com benchmarks. Treinamos agentes de busca neste ambiente para superar as linhas de base de recuperação não-RL; também realizamos análises quantitativas adicionais e observamos comportamentos interessantes dos agentes, como planejamento, raciocínio e autoverificação. Nosso corpus, conjuntos de dados e benchmarks são utilizáveis com a base de código Search-R1, popular para treinamento RLVR, e foram disponibilizados em https://huggingface.co/collections/jmhb/papersearchqa. Por fim, nossos métodos de criação de dados são escaláveis e facilmente extensíveis a outros domínios científicos.
English
Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.