PaperSearchQA: Aprendizaje de Búsqueda y Razonamiento en Artículos Científicos con RLVR
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
January 26, 2026
Autores: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy
cs.AI
Resumen
Los agentes de búsqueda son modelos de lenguaje (LM) que razonan y consultan bases de conocimiento (o la web) para responder preguntas; métodos recientes supervisan únicamente la precisión de la respuesta final utilizando aprendizaje por refuerzo con recompensas verificables (RLVR). La mayoría de los agentes de búsqueda RLVR abordan preguntas y respuestas (QA) de dominio general, lo que limita su relevancia para sistemas de IA técnica en ciencia, ingeniería y medicina. En este trabajo, proponemos entrenar agentes para buscar y razonar sobre artículos científicos; esto pone a prueba la capacidad de respuesta a preguntas técnicas, es directamente relevante para científicos reales, y estas capacidades serán cruciales para futuros sistemas de IA Científica. Concretamente, publicamos un corpus de búsqueda de 16 millones de resúmenes de artículos biomédicos y construimos un desafiante conjunto de datos de QA factual llamado PaperSearchQA con 60.000 muestras que pueden responderse a partir del corpus, junto con puntos de referencia. Entrenamos agentes de búsqueda en este entorno para superar a los baselines de recuperación no-RL; también realizamos un análisis cuantitativo adicional y observamos comportamientos interesantes de los agentes, como la planificación, el razonamiento y la auto-verificación. Nuestro corpus, conjuntos de datos y puntos de referencia son utilizables con el popular código base Search-R1 para el entrenamiento RLVR y se publican en https://huggingface.co/collections/jmhb/papersearchqa. Finalmente, nuestros métodos de creación de datos son escalables y fácilmente extensibles a otros dominios científicos.
English
Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.