ChatPaper.aiChatPaper

MedReseacher-R1: Pesquisador Médico de Nível Especialista via um Framework de Síntese de Trajetória Informada por Conhecimento

MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework

August 20, 2025
Autores: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI

Resumo

Os recentes avanços em agentes baseados em Large Language Models (LLMs) têm demonstrado capacidades impressionantes em múltiplos domínios, exemplificados por sistemas de pesquisa profunda que apresentam desempenho superior em tarefas complexas de busca e síntese de informações. Embora agentes de pesquisa profunda de propósito geral tenham mostrado capacidades impressionantes, eles enfrentam dificuldades significativas com desafios do domínio médico, como evidenciado por sistemas proprietários líderes que alcançam precisão limitada em benchmarks médicos complexos. As principais limitações são: (1) o modelo carece de conhecimento médico denso suficiente para raciocínio clínico, e (2) a estrutura é limitada pela ausência de ferramentas de recuperação especializadas adaptadas para contextos médicos. Apresentamos um agente de pesquisa profunda médica que aborda esses desafios por meio de duas inovações centrais. Primeiro, desenvolvemos uma nova estrutura de síntese de dados utilizando grafos de conhecimento médico, extraindo as cadeias mais longas de subgrafos em torno de entidades médicas raras para gerar pares de perguntas e respostas complexas de múltiplos saltos. Segundo, integramos um mecanismo de recuperação médico privado personalizado juntamente com ferramentas de propósito geral, permitindo a síntese precisa de informações médicas. Nossa abordagem gera mais de 2100 trajetórias diversas em 12 especialidades médicas, cada uma com uma média de 4,2 interações com ferramentas. Por meio de um paradigma de treinamento em duas etapas que combina ajuste fino supervisionado e aprendizado por reforço online com recompensas compostas, nosso modelo MedResearcher-R1-32B demonstra desempenho excepcional, estabelecendo novos resultados de ponta em benchmarks médicos enquanto mantém desempenho competitivo em tarefas gerais de pesquisa profunda. Nosso trabalho demonstra que inovações estratégicas específicas do domínio em arquitetura, design de ferramentas e construção de dados de treinamento podem permitir que modelos menores de código aberto superem sistemas proprietários muito maiores em domínios especializados.
English
Recent developments in Large Language Model (LLM)-based agents have shown impressive capabilities spanning multiple domains, exemplified by deep research systems that demonstrate superior performance on complex information-seeking and synthesis tasks. While general-purpose deep research agents have shown impressive capabilities, they struggle significantly with medical domain challenges, as evidenced by leading proprietary systems achieving limited accuracy on complex medical benchmarks. The key limitations are: (1) the model lacks sufficient dense medical knowledge for clinical reasoning, and (2) the framework is constrained by the absence of specialized retrieval tools tailored for medical contexts.We present a medical deep research agent that addresses these challenges through two core innovations. First, we develop a novel data synthesis framework using medical knowledge graphs, extracting the longest chains from subgraphs around rare medical entities to generate complex multi-hop question-answer pairs. Second, we integrate a custom-built private medical retrieval engine alongside general-purpose tools, enabling accurate medical information synthesis. Our approach generates 2100+ diverse trajectories across 12 medical specialties, each averaging 4.2 tool interactions.Through a two-stage training paradigm combining supervised fine-tuning and online reinforcement learning with composite rewards, our MedResearcher-R1-32B model demonstrates exceptional performance, establishing new state-of-the-art results on medical benchmarks while maintaining competitive performance on general deep research tasks. Our work demonstrates that strategic domain-specific innovations in architecture, tool design, and training data construction can enable smaller open-source models to outperform much larger proprietary systems in specialized domains.
PDF152September 18, 2025