ChatPaper.aiChatPaper

MedReseacher-R1: Экспертный медицинский исследователь на основе глубокого обучения с использованием фреймворка синтеза траекторий, учитывающего знания

MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework

August 20, 2025
Авторы: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI

Аннотация

Последние достижения в области агентов на основе больших языковых моделей (LLM) продемонстрировали впечатляющие возможности в различных областях, что подтверждается глубокими исследовательскими системами, показывающими превосходную производительность в сложных задачах поиска и синтеза информации. Хотя универсальные глубокие исследовательские агенты демонстрируют впечатляющие результаты, они сталкиваются с существенными трудностями в медицинской области, что подтверждается ограниченной точностью ведущих проприетарных систем на сложных медицинских тестах. Основные ограничения заключаются в следующем: (1) модель не обладает достаточными плотными медицинскими знаниями для клинического рассуждения, и (2) фреймворк ограничен отсутствием специализированных инструментов поиска, адаптированных для медицинских контекстов. Мы представляем медицинского глубокого исследовательского агента, который решает эти проблемы с помощью двух ключевых инноваций. Во-первых, мы разрабатываем новый фреймворк синтеза данных с использованием медицинских графов знаний, извлекая самые длинные цепочки из подграфов вокруг редких медицинских сущностей для генерации сложных многошаговых вопросно-ответных пар. Во-вторых, мы интегрируем специализированный частный медицинский поисковый механизм вместе с универсальными инструментами, что позволяет точно синтезировать медицинскую информацию. Наш подход генерирует более 2100 разнообразных траекторий в 12 медицинских специальностях, каждая из которых в среднем включает 4.2 взаимодействия с инструментами. Благодаря двухэтапной парадигме обучения, сочетающей контролируемую тонкую настройку и онлайн-обучение с подкреплением с составными наградами, наша модель MedResearcher-R1-32B демонстрирует исключительную производительность, устанавливая новые рекорды на медицинских тестах, сохраняя при этом конкурентоспособные результаты на общих задачах глубокого исследования. Наша работа показывает, что стратегические доменно-специфические инновации в архитектуре, дизайне инструментов и построении обучающих данных позволяют меньшим открытым моделям превосходить значительно более крупные проприетарные системы в специализированных областях.
English
Recent developments in Large Language Model (LLM)-based agents have shown impressive capabilities spanning multiple domains, exemplified by deep research systems that demonstrate superior performance on complex information-seeking and synthesis tasks. While general-purpose deep research agents have shown impressive capabilities, they struggle significantly with medical domain challenges, as evidenced by leading proprietary systems achieving limited accuracy on complex medical benchmarks. The key limitations are: (1) the model lacks sufficient dense medical knowledge for clinical reasoning, and (2) the framework is constrained by the absence of specialized retrieval tools tailored for medical contexts.We present a medical deep research agent that addresses these challenges through two core innovations. First, we develop a novel data synthesis framework using medical knowledge graphs, extracting the longest chains from subgraphs around rare medical entities to generate complex multi-hop question-answer pairs. Second, we integrate a custom-built private medical retrieval engine alongside general-purpose tools, enabling accurate medical information synthesis. Our approach generates 2100+ diverse trajectories across 12 medical specialties, each averaging 4.2 tool interactions.Through a two-stage training paradigm combining supervised fine-tuning and online reinforcement learning with composite rewards, our MedResearcher-R1-32B model demonstrates exceptional performance, establishing new state-of-the-art results on medical benchmarks while maintaining competitive performance on general deep research tasks. Our work demonstrates that strategic domain-specific innovations in architecture, tool design, and training data construction can enable smaller open-source models to outperform much larger proprietary systems in specialized domains.
PDF91September 18, 2025