ReasonMed: Een dataset van 370K gegenereerd door multi-agenten voor het bevorderen van medisch redeneren
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning
June 11, 2025
Auteurs: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
cs.AI
Samenvatting
Hoewel redeneer-gebaseerde grote taalmodellen (LLMs) uitblinken in wiskunde en programmeren, blijven hun mogelijkheden op het gebied van kennisintensieve medische vraagbeantwoording onderbelicht. Om dit aan te pakken, introduceren we ReasonMed, de grootste medische redeneerdataset, bestaande uit 370k hoogwaardige voorbeelden gedestilleerd uit 1,7 miljoen initiële redeneerpaden gegenereerd door diverse LLMs. ReasonMed is geconstrueerd via een multi-agent verificatie- en verfijningsproces, waarbij we een Error Refiner ontwerpen om de redeneerpaden te verbeteren door foutgevoelige stappen te identificeren en te corrigeren die door een verifier zijn gemarkeerd. Door gebruik te maken van ReasonMed, onderzoeken we systematisch de beste praktijken voor het trainen van medische redeneermodellen en ontdekken we dat het combineren van gedetailleerde Chain-of-Thought (CoT) redenering met beknopte antwoordsamenvattingen de meest effectieve fine-tuningstrategie oplevert. Op basis van deze strategie trainen we ReasonMed-7B, dat een nieuwe standaard zet voor modellen onder de 10B, door de vorige beste prestatie met 4,17% te overtreffen en zelfs LLaMA3.1-70B op PubMedQA met 4,60% te verslaan.
English
Though reasoning-based large language models (LLMs) have excelled in
mathematics and programming, their capabilities in knowledge-intensive medical
question answering remain underexplored. To address this, we introduce
ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality
examples distilled from 1.7 million initial reasoning paths generated by
various LLMs. ReasonMed is constructed through a multi-agent
verification and refinement process, where we design an Error Refiner
to enhance the reasoning paths by identifying and correcting error-prone steps
flagged by a verifier. Leveraging ReasonMed, we systematically investigate best
practices for training medical reasoning models and find that combining
detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields
the most effective fine-tuning strategy. Based on this strategy, we train
ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the
prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.