MedReseacher-R1 : Chercheur Médical Expert par le biais d’un Cadre de Synthèse de Trajectoire Informé par la Connaissance
MedReseacher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework
August 20, 2025
papers.authors: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
cs.AI
papers.abstract
Les récents développements des agents basés sur des modèles de langage de grande taille (LLM) ont démontré des capacités impressionnantes dans de multiples domaines, illustrées par des systèmes de recherche approfondie qui affichent des performances supérieures dans des tâches complexes de recherche et de synthèse d'informations. Bien que les agents de recherche approfondie à usage général aient montré des capacités remarquables, ils rencontrent des difficultés significatives face aux défis du domaine médical, comme en témoignent les systèmes propriétaires leaders qui obtiennent une précision limitée sur des benchmarks médicaux complexes. Les principales limitations sont : (1) le manque de connaissances médicales denses suffisantes pour le raisonnement clinique, et (2) l'absence d'outils de recherche spécialisés adaptés aux contextes médicaux. Nous présentons un agent de recherche approfondie médical qui relève ces défis grâce à deux innovations clés. Premièrement, nous développons un nouveau cadre de synthèse de données utilisant des graphes de connaissances médicaux, en extrayant les chaînes les plus longues à partir de sous-graphes autour d'entités médicales rares pour générer des paires de questions-réponses complexes à multiples sauts. Deuxièmement, nous intégrons un moteur de recherche médical privé personnalisé aux côtés d'outils à usage général, permettant une synthèse précise des informations médicales. Notre approche génère plus de 2100 trajectoires diverses couvrant 12 spécialités médicales, chacune impliquant en moyenne 4,2 interactions avec des outils. Grâce à un paradigme de formation en deux étapes combinant un réglage fin supervisé et un apprentissage par renforcement en ligne avec des récompenses composites, notre modèle MedResearcher-R1-32B démontre des performances exceptionnelles, établissant de nouveaux résultats de pointe sur les benchmarks médicaux tout en maintenant des performances compétitives sur les tâches générales de recherche approfondie. Notre travail montre que des innovations stratégiques spécifiques au domaine dans l'architecture, la conception des outils et la construction des données d'entraînement peuvent permettre à des modèles open-source plus petits de surpasser des systèmes propriétaires beaucoup plus volumineux dans des domaines spécialisés.
English
Recent developments in Large Language Model (LLM)-based agents have shown
impressive capabilities spanning multiple domains, exemplified by deep research
systems that demonstrate superior performance on complex information-seeking
and synthesis tasks. While general-purpose deep research agents have shown
impressive capabilities, they struggle significantly with medical domain
challenges, as evidenced by leading proprietary systems achieving limited
accuracy on complex medical benchmarks. The key limitations are: (1) the model
lacks sufficient dense medical knowledge for clinical reasoning, and (2) the
framework is constrained by the absence of specialized retrieval tools tailored
for medical contexts.We present a medical deep research agent that addresses
these challenges through two core innovations. First, we develop a novel data
synthesis framework using medical knowledge graphs, extracting the longest
chains from subgraphs around rare medical entities to generate complex
multi-hop question-answer pairs. Second, we integrate a custom-built private
medical retrieval engine alongside general-purpose tools, enabling accurate
medical information synthesis. Our approach generates 2100+ diverse
trajectories across 12 medical specialties, each averaging 4.2 tool
interactions.Through a two-stage training paradigm combining supervised
fine-tuning and online reinforcement learning with composite rewards, our
MedResearcher-R1-32B model demonstrates exceptional performance, establishing
new state-of-the-art results on medical benchmarks while maintaining
competitive performance on general deep research tasks. Our work demonstrates
that strategic domain-specific innovations in architecture, tool design, and
training data construction can enable smaller open-source models to outperform
much larger proprietary systems in specialized domains.