ChatPaper.aiChatPaper

MedReseacher-R1: Investigador Médico de Nivel Experto mediante un Marco de Síntesis de Trayectorias Basado en Conocimiento

MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework

August 20, 2025
Autores: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI

Resumen

Los avances recientes en agentes basados en Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) han demostrado capacidades impresionantes en múltiples dominios, ejemplificados por sistemas de investigación profunda que muestran un rendimiento superior en tareas complejas de búsqueda y síntesis de información. Aunque los agentes de investigación profunda de propósito general han mostrado capacidades notables, enfrentan dificultades significativas en los desafíos del dominio médico, como lo evidencia el rendimiento limitado de los sistemas propietarios líderes en benchmarks médicos complejos. Las limitaciones clave son: (1) el modelo carece de conocimiento médico denso suficiente para el razonamiento clínico, y (2) el marco está restringido por la ausencia de herramientas de recuperación especializadas adaptadas a contextos médicos. Presentamos un agente de investigación médica profunda que aborda estos desafíos a través de dos innovaciones principales. Primero, desarrollamos un marco novedoso de síntesis de datos utilizando grafos de conocimiento médico, extrayendo las cadenas más largas de subgrafos alrededor de entidades médicas raras para generar pares de preguntas-respuestas complejas de múltiples saltos. Segundo, integramos un motor de recuperación médico privado personalizado junto con herramientas de propósito general, permitiendo una síntesis precisa de información médica. Nuestro enfoque genera más de 2100 trayectorias diversas en 12 especialidades médicas, con un promedio de 4.2 interacciones con herramientas por trayectoria. Mediante un paradigma de entrenamiento en dos etapas que combina ajuste fino supervisado y aprendizaje por refuerzo en línea con recompensas compuestas, nuestro modelo MedResearcher-R1-32B demuestra un rendimiento excepcional, estableciendo nuevos resultados de vanguardia en benchmarks médicos mientras mantiene un rendimiento competitivo en tareas generales de investigación profunda. Nuestro trabajo demuestra que innovaciones estratégicas específicas del dominio en arquitectura, diseño de herramientas y construcción de datos de entrenamiento pueden permitir que modelos de código abierto más pequeños superen a sistemas propietarios mucho más grandes en dominios especializados.
English
Recent developments in Large Language Model (LLM)-based agents have shown impressive capabilities spanning multiple domains, exemplified by deep research systems that demonstrate superior performance on complex information-seeking and synthesis tasks. While general-purpose deep research agents have shown impressive capabilities, they struggle significantly with medical domain challenges, as evidenced by leading proprietary systems achieving limited accuracy on complex medical benchmarks. The key limitations are: (1) the model lacks sufficient dense medical knowledge for clinical reasoning, and (2) the framework is constrained by the absence of specialized retrieval tools tailored for medical contexts.We present a medical deep research agent that addresses these challenges through two core innovations. First, we develop a novel data synthesis framework using medical knowledge graphs, extracting the longest chains from subgraphs around rare medical entities to generate complex multi-hop question-answer pairs. Second, we integrate a custom-built private medical retrieval engine alongside general-purpose tools, enabling accurate medical information synthesis. Our approach generates 2100+ diverse trajectories across 12 medical specialties, each averaging 4.2 tool interactions.Through a two-stage training paradigm combining supervised fine-tuning and online reinforcement learning with composite rewards, our MedResearcher-R1-32B model demonstrates exceptional performance, establishing new state-of-the-art results on medical benchmarks while maintaining competitive performance on general deep research tasks. Our work demonstrates that strategic domain-specific innovations in architecture, tool design, and training data construction can enable smaller open-source models to outperform much larger proprietary systems in specialized domains.
PDF91September 18, 2025