MedReseacher-R1: Investigador Médico de Nivel Experto mediante un Marco de Síntesis de Trayectorias Basado en Conocimiento
MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework
August 20, 2025
Autores: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI
Resumen
Los avances recientes en agentes basados en Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) han demostrado capacidades impresionantes en múltiples dominios, ejemplificados por sistemas de investigación profunda que muestran un rendimiento superior en tareas complejas de búsqueda y síntesis de información. Aunque los agentes de investigación profunda de propósito general han mostrado capacidades notables, enfrentan dificultades significativas en los desafíos del dominio médico, como lo evidencia el rendimiento limitado de los sistemas propietarios líderes en benchmarks médicos complejos. Las limitaciones clave son: (1) el modelo carece de conocimiento médico denso suficiente para el razonamiento clínico, y (2) el marco está restringido por la ausencia de herramientas de recuperación especializadas adaptadas a contextos médicos. Presentamos un agente de investigación médica profunda que aborda estos desafíos a través de dos innovaciones principales. Primero, desarrollamos un marco novedoso de síntesis de datos utilizando grafos de conocimiento médico, extrayendo las cadenas más largas de subgrafos alrededor de entidades médicas raras para generar pares de preguntas-respuestas complejas de múltiples saltos. Segundo, integramos un motor de recuperación médico privado personalizado junto con herramientas de propósito general, permitiendo una síntesis precisa de información médica. Nuestro enfoque genera más de 2100 trayectorias diversas en 12 especialidades médicas, con un promedio de 4.2 interacciones con herramientas por trayectoria. Mediante un paradigma de entrenamiento en dos etapas que combina ajuste fino supervisado y aprendizaje por refuerzo en línea con recompensas compuestas, nuestro modelo MedResearcher-R1-32B demuestra un rendimiento excepcional, estableciendo nuevos resultados de vanguardia en benchmarks médicos mientras mantiene un rendimiento competitivo en tareas generales de investigación profunda. Nuestro trabajo demuestra que innovaciones estratégicas específicas del dominio en arquitectura, diseño de herramientas y construcción de datos de entrenamiento pueden permitir que modelos de código abierto más pequeños superen a sistemas propietarios mucho más grandes en dominios especializados.
English
Recent developments in Large Language Model (LLM)-based agents have shown
impressive capabilities spanning multiple domains, exemplified by deep research
systems that demonstrate superior performance on complex information-seeking
and synthesis tasks. While general-purpose deep research agents have shown
impressive capabilities, they struggle significantly with medical domain
challenges, as evidenced by leading proprietary systems achieving limited
accuracy on complex medical benchmarks. The key limitations are: (1) the model
lacks sufficient dense medical knowledge for clinical reasoning, and (2) the
framework is constrained by the absence of specialized retrieval tools tailored
for medical contexts.We present a medical deep research agent that addresses
these challenges through two core innovations. First, we develop a novel data
synthesis framework using medical knowledge graphs, extracting the longest
chains from subgraphs around rare medical entities to generate complex
multi-hop question-answer pairs. Second, we integrate a custom-built private
medical retrieval engine alongside general-purpose tools, enabling accurate
medical information synthesis. Our approach generates 2100+ diverse
trajectories across 12 medical specialties, each averaging 4.2 tool
interactions.Through a two-stage training paradigm combining supervised
fine-tuning and online reinforcement learning with composite rewards, our
MedResearcher-R1-32B model demonstrates exceptional performance, establishing
new state-of-the-art results on medical benchmarks while maintaining
competitive performance on general deep research tasks. Our work demonstrates
that strategic domain-specific innovations in architecture, tool design, and
training data construction can enable smaller open-source models to outperform
much larger proprietary systems in specialized domains.