MedReseacher-R1: Expertenstufe medizinischer Tiefenforscher durch ein wissensbasiertes Trajektorien-Synthese-Framework
MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework
August 20, 2025
papers.authors: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI
papers.abstract
Jüngste Entwicklungen bei auf großen Sprachmodellen (LLM) basierenden Agenten haben beeindruckende Fähigkeiten in verschiedenen Domänen gezeigt, wie beispielsweise tiefgehende Forschungssysteme, die eine überlegene Leistung bei komplexen Informationssuche- und Syntheseaufgaben demonstrieren. Obwohl allgemeine tiefgehende Forschungsagenten beeindruckende Fähigkeiten aufweisen, haben sie erhebliche Schwierigkeiten mit Herausforderungen im medizinischen Bereich, wie führende proprietäre Systeme zeigen, die nur begrenzte Genauigkeit bei komplexen medizinischen Benchmarks erreichen. Die wesentlichen Einschränkungen sind: (1) dem Modell fehlt ausreichend dichtes medizinisches Wissen für klinische Entscheidungsfindung, und (2) das Framework ist durch das Fehlen spezialisierter Retrieval-Tools, die für medizinische Kontexte maßgeschneidert sind, eingeschränkt. Wir präsentieren einen medizinischen tiefgehenden Forschungsagenten, der diese Herausforderungen durch zwei Kerninnovationen adressiert. Erstens entwickeln wir ein neuartiges Daten-Synthese-Framework unter Verwendung medizinischer Wissensgraphen, das die längsten Ketten aus Teilgraphen um seltene medizinische Entitäten extrahiert, um komplexe Multi-Hop-Frage-Antwort-Paare zu generieren. Zweitens integrieren wir eine speziell entwickelte private medizinische Retrieval-Engine neben allgemeinen Tools, die eine genaue Synthese medizinischer Informationen ermöglicht. Unser Ansatz generiert über 2100 diverse Trajektorien über 12 medizinische Fachgebiete hinweg, wobei jede durchschnittlich 4,2 Tool-Interaktionen aufweist. Durch ein zweistufiges Trainingsparadigma, das überwachtes Fein-Tuning und Online-Verstärkungslernen mit zusammengesetzten Belohnungen kombiniert, demonstriert unser MedResearcher-R1-32B-Modell eine außergewöhnliche Leistung und setzt neue Maßstäbe auf medizinischen Benchmarks, während es gleichzeitig eine wettbewerbsfähige Leistung bei allgemeinen tiefgehenden Forschungsaufgaben beibehält. Unsere Arbeit zeigt, dass strategische domänenspezifische Innovationen in Architektur, Tool-Design und Trainingsdatenkonstruktion es kleineren Open-Source-Modellen ermöglichen können, viel größere proprietäre Systeme in spezialisierten Domänen zu übertreffen.
English
Recent developments in Large Language Model (LLM)-based agents have shown
impressive capabilities spanning multiple domains, exemplified by deep research
systems that demonstrate superior performance on complex information-seeking
and synthesis tasks. While general-purpose deep research agents have shown
impressive capabilities, they struggle significantly with medical domain
challenges, as evidenced by leading proprietary systems achieving limited
accuracy on complex medical benchmarks. The key limitations are: (1) the model
lacks sufficient dense medical knowledge for clinical reasoning, and (2) the
framework is constrained by the absence of specialized retrieval tools tailored
for medical contexts.We present a medical deep research agent that addresses
these challenges through two core innovations. First, we develop a novel data
synthesis framework using medical knowledge graphs, extracting the longest
chains from subgraphs around rare medical entities to generate complex
multi-hop question-answer pairs. Second, we integrate a custom-built private
medical retrieval engine alongside general-purpose tools, enabling accurate
medical information synthesis. Our approach generates 2100+ diverse
trajectories across 12 medical specialties, each averaging 4.2 tool
interactions.Through a two-stage training paradigm combining supervised
fine-tuning and online reinforcement learning with composite rewards, our
MedResearcher-R1-32B model demonstrates exceptional performance, establishing
new state-of-the-art results on medical benchmarks while maintaining
competitive performance on general deep research tasks. Our work demonstrates
that strategic domain-specific innovations in architecture, tool design, and
training data construction can enable smaller open-source models to outperform
much larger proprietary systems in specialized domains.