PaperSearchQA: Обучение поиску и рассуждению по научным статьям с помощью RLVR
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
January 26, 2026
Авторы: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy
cs.AI
Аннотация
Поисковые агенты — это языковые модели, которые рассуждают и исследуют базы знаний (или Интернет) для ответа на вопросы; современные методы контролируют только точность конечного ответа с помощью обучения с подкреплением с верифицируемыми вознаграждениями (RLVR). Большинство RLVR-агентов решают задачи вопросно-ответных систем общей тематики, что ограничивает их применимость в технических системах ИИ в науке, технике и медицине. В данной работе мы предлагаем обучать агентов для поиска и рассуждений на основе научных статей — это позволяет проверить технические вопросно-ответные возможности, напрямую актуально для реальных ученых, и такие способности будут ключевыми для будущих систем «ИИ-Ученый». Конкретно мы публикуем поисковый корпус из 16 миллионов аннотаций биомедицинских статей и создаем сложный фактоидный вопросно-ответный набор данных PaperSearchQA, содержащий 60 тысяч примеров, ответы на которые можно найти в корпусе, а также соответствующие тесты. Мы обучаем поисковых агентов в этой среде, чтобы превзойти базовые методы поиска без обучения с подкреплением; также мы проводим дополнительный количественный анализ и наблюдаем интересные поведения агентов, такие как планирование, рассуждение и самопроверка. Наш корпус, наборы данных и тесты совместимы с популярной кодовой базой Search-R1 для RLVR-обучения и опубликованы на https://huggingface.co/collections/jmhb/papersearchqa. Наконец, наши методы создания данных масштабируемы и легко применимы в других научных областях.
English
Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.