ReasonMed: Ein 370K Multi-Agenten-generierter Datensatz zur Förderung medizinischen Denkens
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning
June 11, 2025
Autoren: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
cs.AI
Zusammenfassung
Obwohl reasoning-basierte große Sprachmodelle (LLMs) in Mathematik und Programmierung hervorragende Leistungen erbracht haben, sind ihre Fähigkeiten im Bereich der wissensintensiven medizinischen Fragebeantwortung noch weitgehend unerforscht. Um dies zu adressieren, stellen wir ReasonMed vor, den größten medizinischen Reasoning-Datensatz, der 370.000 hochwertige Beispiele umfasst, die aus 1,7 Millionen initialen Reasoning-Pfaden destilliert wurden, die von verschiedenen LLMs generiert wurden. ReasonMed wird durch einen Multi-Agenten-Verifizierungs- und Verfeinerungsprozess konstruiert, bei dem wir einen Error Refiner entwerfen, um die Reasoning-Pfade zu verbessern, indem fehleranfällige Schritte identifiziert und korrigiert werden, die von einem Verifizierer markiert wurden. Durch die Nutzung von ReasonMed untersuchen wir systematisch Best Practices für das Training von medizinischen Reasoning-Modellen und stellen fest, dass die Kombination von detailliertem Chain-of-Thought (CoT) Reasoning mit prägnanten Antwortzusammenfassungen die effektivste Feinabstimmungsstrategie darstellt. Basierend auf dieser Strategie trainieren wir ReasonMed-7B, das einen neuen Maßstab für Modelle unter 10B setzt und das bisher beste Modell um 4,17 % übertrifft und sogar LLaMA3.1-70B auf PubMedQA um 4,60 % übertrifft.
English
Though reasoning-based large language models (LLMs) have excelled in
mathematics and programming, their capabilities in knowledge-intensive medical
question answering remain underexplored. To address this, we introduce
ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality
examples distilled from 1.7 million initial reasoning paths generated by
various LLMs. ReasonMed is constructed through a multi-agent
verification and refinement process, where we design an Error Refiner
to enhance the reasoning paths by identifying and correcting error-prone steps
flagged by a verifier. Leveraging ReasonMed, we systematically investigate best
practices for training medical reasoning models and find that combining
detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields
the most effective fine-tuning strategy. Based on this strategy, we train
ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the
prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.