ChatPaper.aiChatPaper

PaperSearchQA: Lernen des Suchens und Schließens in wissenschaftlichen Artikeln mit RLVR

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

January 26, 2026
papers.authors: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy
cs.AI

papers.abstract

Suchagenten sind Sprachmodelle (LMs), die schlussfolgern und Wissensdatenbanken (oder das Web) durchsuchen, um Fragen zu beantworten; aktuelle Methoden überwachen nur die Endantwortgenauigkeit mittels Verstärkendem Lernen mit überprüfbaren Belohnungen (RLVR). Die meisten RLVR-Suchagenten bearbeiten allgemeine Frage-Antwort-Aufgaben (QA), was ihre Relevanz für technische KI-Systeme in Wissenschaft, Technik und Medizin einschränkt. In dieser Arbeit schlagen wir vor, Agenten für die Suche und das Schlussfolgern in wissenschaftlichen Artikeln zu trainieren – dies testet technisches Frage-Antworten, ist direkt relevant für echte Wissenschaftler, und die Fähigkeiten werden für zukünftige KI-Wissenschaftler-Systeme entscheidend sein. Konkret veröffentlichen wir ein Suchkorpus mit 16 Millionen biomedizinischen Artikelabstracts und erstellen einen anspruchsvollen faktischen QA-Datensatz namens PaperSearchQA mit 60.000 Stichproben, die aus dem Korpus beantwortet werden können, sowie Benchmarks. Wir trainieren Suchagenten in dieser Umgebung, um Nicht-RL-Retrieval-Baselines zu übertreffen; wir führen auch weitere quantitative Analysen durch und beobachten interessante Agentenverhalten wie Planung, Schlussfolgern und Selbstverifikation. Unser Korpus, Datensätze und Benchmarks sind mit der populären Search-R1-Codebasis für RLVR-Training kompatibel und werden auf https://huggingface.co/collections/jmhb/papersearchqa veröffentlicht. Schließlich sind unsere Methoden zur Datenerstellung skalierbar und leicht auf andere wissenschaftliche Domänen erweiterbar.
English
Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.
PDF162February 6, 2026