MedReseacher-R1: Expertniveau Medisch Diepgaand Onderzoeker via een Kennisgeïnformeerd Traject Synthese Framework
MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework
August 20, 2025
Auteurs: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI
Samenvatting
Recente ontwikkelingen in op Large Language Models (LLM) gebaseerde agents hebben indrukwekkende mogelijkheden getoond die meerdere domeinen omvatten, geïllustreerd door diepgaande onderzoekssystemen die superieure prestaties leveren bij complexe informatiezoek- en synthesetaken. Hoewel algemene diepgaande onderzoeksagents indrukwekkende capaciteiten hebben getoond, hebben ze aanzienlijke moeite met uitdagingen in het medische domein, zoals blijkt uit toonaangevende propriëtaire systemen die beperkte nauwkeurigheid behalen op complexe medische benchmarks. De belangrijkste beperkingen zijn: (1) het model beschikt niet over voldoende gedetailleerde medische kennis voor klinisch redeneren, en (2) het raamwerk wordt beperkt door het ontbreken van gespecialiseerde retrievalspecifieke tools die zijn afgestemd op medische contexten. Wij presenteren een medische diepgaande onderzoeksagent die deze uitdagingen aanpakt via twee kerninnovaties. Ten eerste ontwikkelen we een nieuw datasyntheseraamwerk met behulp van medische kennisgrafieken, waarbij we de langste ketens uit subgrafieken rond zeldzame medische entiteiten extraheren om complexe multi-hop vraag-antwoordparen te genereren. Ten tweede integreren we een op maat gebouwde privé-medische retrievalengine naast algemene tools, waardoor nauwkeurige medische informatiesynthese mogelijk wordt. Onze aanpak genereert meer dan 2100 diverse trajecten over 12 medische specialismen, elk met gemiddeld 4,2 toolinteracties. Door een tweefasig trainingsparadigma dat supervised fine-tuning combineert met online reinforcement learning met samengestelde beloningen, toont ons MedResearcher-R1-32B-model uitzonderlijke prestaties, waarbij het nieuwe state-of-the-art resultaten behaalt op medische benchmarks terwijl het concurrerende prestaties behoudt op algemene diepgaande onderzoektaken. Ons werk toont aan dat strategische domeinspecifieke innovaties in architectuur, toolontwerp en trainingsdataconstructie kleinere open-sourcemodellen in staat kunnen stellen om veel grotere propriëtaire systemen te overtreffen in gespecialiseerde domeinen.
English
Recent developments in Large Language Model (LLM)-based agents have shown
impressive capabilities spanning multiple domains, exemplified by deep research
systems that demonstrate superior performance on complex information-seeking
and synthesis tasks. While general-purpose deep research agents have shown
impressive capabilities, they struggle significantly with medical domain
challenges, as evidenced by leading proprietary systems achieving limited
accuracy on complex medical benchmarks. The key limitations are: (1) the model
lacks sufficient dense medical knowledge for clinical reasoning, and (2) the
framework is constrained by the absence of specialized retrieval tools tailored
for medical contexts.We present a medical deep research agent that addresses
these challenges through two core innovations. First, we develop a novel data
synthesis framework using medical knowledge graphs, extracting the longest
chains from subgraphs around rare medical entities to generate complex
multi-hop question-answer pairs. Second, we integrate a custom-built private
medical retrieval engine alongside general-purpose tools, enabling accurate
medical information synthesis. Our approach generates 2100+ diverse
trajectories across 12 medical specialties, each averaging 4.2 tool
interactions.Through a two-stage training paradigm combining supervised
fine-tuning and online reinforcement learning with composite rewards, our
MedResearcher-R1-32B model demonstrates exceptional performance, establishing
new state-of-the-art results on medical benchmarks while maintaining
competitive performance on general deep research tasks. Our work demonstrates
that strategic domain-specific innovations in architecture, tool design, and
training data construction can enable smaller open-source models to outperform
much larger proprietary systems in specialized domains.