ChatPaper.aiChatPaper

MedReseacher-R1: Ricercatore Medico di Livello Esperto attraverso un Framework di Sintesi Traiettorie Informato dalla Conoscenza

MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework

August 20, 2025
Autori: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI

Abstract

I recenti sviluppi negli agenti basati su Large Language Model (LLM) hanno dimostrato capacità impressionanti in molteplici domini, come evidenziato dai sistemi di ricerca avanzata che mostrano prestazioni superiori in compiti complessi di ricerca e sintesi di informazioni. Sebbene gli agenti di ricerca avanzata generici abbiano mostrato capacità notevoli, incontrano difficoltà significative nelle sfide del dominio medico, come dimostrato dai principali sistemi proprietari che raggiungono un'accuratezza limitata su benchmark medici complessi. Le principali limitazioni sono: (1) il modello manca di una conoscenza medica densa sufficiente per il ragionamento clinico, e (2) il framework è limitato dall'assenza di strumenti di recupero specializzati adatti ai contesti medici. Presentiamo un agente di ricerca medica avanzata che affronta queste sfide attraverso due innovazioni fondamentali. In primo luogo, sviluppiamo un nuovo framework di sintesi dei dati utilizzando grafi di conoscenza medica, estraendo le catene più lunghe dai sottografi intorno a entità mediche rare per generare coppie domanda-risposta complesse a più passaggi. In secondo luogo, integriamo un motore di recupero medico privato personalizzato insieme a strumenti generici, consentendo una sintesi accurata delle informazioni mediche. Il nostro approccio genera oltre 2100 traiettorie diverse in 12 specialità mediche, ciascuna con una media di 4,2 interazioni con gli strumenti. Attraverso un paradigma di addestramento in due fasi che combina il fine-tuning supervisionato e l'apprendimento per rinforzo online con ricompense composite, il nostro modello MedResearcher-R1-32B dimostra prestazioni eccezionali, stabilendo nuovi risultati all'avanguardia sui benchmark medici mantenendo prestazioni competitive nei compiti generali di ricerca avanzata. Il nostro lavoro dimostra che innovazioni strategiche specifiche per il dominio nell'architettura, nel design degli strumenti e nella costruzione dei dati di addestramento possono consentire a modelli open-source più piccoli di superare sistemi proprietari molto più grandi in domini specializzati.
English
Recent developments in Large Language Model (LLM)-based agents have shown impressive capabilities spanning multiple domains, exemplified by deep research systems that demonstrate superior performance on complex information-seeking and synthesis tasks. While general-purpose deep research agents have shown impressive capabilities, they struggle significantly with medical domain challenges, as evidenced by leading proprietary systems achieving limited accuracy on complex medical benchmarks. The key limitations are: (1) the model lacks sufficient dense medical knowledge for clinical reasoning, and (2) the framework is constrained by the absence of specialized retrieval tools tailored for medical contexts.We present a medical deep research agent that addresses these challenges through two core innovations. First, we develop a novel data synthesis framework using medical knowledge graphs, extracting the longest chains from subgraphs around rare medical entities to generate complex multi-hop question-answer pairs. Second, we integrate a custom-built private medical retrieval engine alongside general-purpose tools, enabling accurate medical information synthesis. Our approach generates 2100+ diverse trajectories across 12 medical specialties, each averaging 4.2 tool interactions.Through a two-stage training paradigm combining supervised fine-tuning and online reinforcement learning with composite rewards, our MedResearcher-R1-32B model demonstrates exceptional performance, establishing new state-of-the-art results on medical benchmarks while maintaining competitive performance on general deep research tasks. Our work demonstrates that strategic domain-specific innovations in architecture, tool design, and training data construction can enable smaller open-source models to outperform much larger proprietary systems in specialized domains.
PDF152September 18, 2025