MedReseacher-R1: Ricercatore Medico di Livello Esperto attraverso un Framework di Sintesi Traiettorie Informato dalla Conoscenza
MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework
August 20, 2025
Autori: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI
Abstract
I recenti sviluppi negli agenti basati su Large Language Model (LLM) hanno dimostrato capacità impressionanti in molteplici domini, come evidenziato dai sistemi di ricerca avanzata che mostrano prestazioni superiori in compiti complessi di ricerca e sintesi di informazioni. Sebbene gli agenti di ricerca avanzata generici abbiano mostrato capacità notevoli, incontrano difficoltà significative nelle sfide del dominio medico, come dimostrato dai principali sistemi proprietari che raggiungono un'accuratezza limitata su benchmark medici complessi. Le principali limitazioni sono: (1) il modello manca di una conoscenza medica densa sufficiente per il ragionamento clinico, e (2) il framework è limitato dall'assenza di strumenti di recupero specializzati adatti ai contesti medici. Presentiamo un agente di ricerca medica avanzata che affronta queste sfide attraverso due innovazioni fondamentali. In primo luogo, sviluppiamo un nuovo framework di sintesi dei dati utilizzando grafi di conoscenza medica, estraendo le catene più lunghe dai sottografi intorno a entità mediche rare per generare coppie domanda-risposta complesse a più passaggi. In secondo luogo, integriamo un motore di recupero medico privato personalizzato insieme a strumenti generici, consentendo una sintesi accurata delle informazioni mediche. Il nostro approccio genera oltre 2100 traiettorie diverse in 12 specialità mediche, ciascuna con una media di 4,2 interazioni con gli strumenti. Attraverso un paradigma di addestramento in due fasi che combina il fine-tuning supervisionato e l'apprendimento per rinforzo online con ricompense composite, il nostro modello MedResearcher-R1-32B dimostra prestazioni eccezionali, stabilendo nuovi risultati all'avanguardia sui benchmark medici mantenendo prestazioni competitive nei compiti generali di ricerca avanzata. Il nostro lavoro dimostra che innovazioni strategiche specifiche per il dominio nell'architettura, nel design degli strumenti e nella costruzione dei dati di addestramento possono consentire a modelli open-source più piccoli di superare sistemi proprietari molto più grandi in domini specializzati.
English
Recent developments in Large Language Model (LLM)-based agents have shown
impressive capabilities spanning multiple domains, exemplified by deep research
systems that demonstrate superior performance on complex information-seeking
and synthesis tasks. While general-purpose deep research agents have shown
impressive capabilities, they struggle significantly with medical domain
challenges, as evidenced by leading proprietary systems achieving limited
accuracy on complex medical benchmarks. The key limitations are: (1) the model
lacks sufficient dense medical knowledge for clinical reasoning, and (2) the
framework is constrained by the absence of specialized retrieval tools tailored
for medical contexts.We present a medical deep research agent that addresses
these challenges through two core innovations. First, we develop a novel data
synthesis framework using medical knowledge graphs, extracting the longest
chains from subgraphs around rare medical entities to generate complex
multi-hop question-answer pairs. Second, we integrate a custom-built private
medical retrieval engine alongside general-purpose tools, enabling accurate
medical information synthesis. Our approach generates 2100+ diverse
trajectories across 12 medical specialties, each averaging 4.2 tool
interactions.Through a two-stage training paradigm combining supervised
fine-tuning and online reinforcement learning with composite rewards, our
MedResearcher-R1-32B model demonstrates exceptional performance, establishing
new state-of-the-art results on medical benchmarks while maintaining
competitive performance on general deep research tasks. Our work demonstrates
that strategic domain-specific innovations in architecture, tool design, and
training data construction can enable smaller open-source models to outperform
much larger proprietary systems in specialized domains.