PaperSearchQA : Apprentissage de la recherche et du raisonnement sur des articles scientifiques avec RLVR
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
January 26, 2026
papers.authors: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy
cs.AI
papers.abstract
Les agents de recherche sont des modèles de langage (LM) qui raisonnent et interrogent des bases de connaissances (ou le web) pour répondre à des questions ; les méthodes récentes supervisent uniquement la précision de la réponse finale en utilisant l'apprentissage par renforcement avec des récompenses vérifiables (RLVR). La plupart des agents de recherche RLVR traitent de questions-réponses en domaine général, ce qui limite leur pertinence pour les systèmes d'IA techniques dans les domaines scientifiques, techniques et médicaux. Dans ce travail, nous proposons d'entraîner des agents à rechercher et raisonner sur des articles scientifiques – cela permet de tester la réponse à des questions techniques, c'est directement pertinent pour les scientifiques réels, et ces capacités seront cruciales pour les futurs systèmes d'IA scientifique. Concrètement, nous publions un corpus de recherche de 16 millions de résumés d'articles biomédicaux et construisons un jeu de données de questions-réponses factuelles exigeant appelé PaperSearchQA avec 60 000 échantillons dont la réponse se trouve dans le corpus, ainsi que des benchmarks. Nous entraînons des agents de recherche dans cet environnement à surpasser les bases de référence de récupération non-RL ; nous effectuons également une analyse quantitative supplémentaire et observons des comportements intéressants des agents comme la planification, le raisonnement et l'auto-vérification. Notre corpus, jeux de données et benchmarks sont utilisables avec le codebase populaire Search-R1 pour l'entraînement RLVR et sont publiés sur https://huggingface.co/collections/jmhb/papersearchqa. Enfin, nos méthodes de création de données sont évolutives et facilement extensibles à d'autres domaines scientifiques.
English
Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.