ReasonMed : Un ensemble de données de 370K généré par des agents multiples pour faire progresser le raisonnement médical
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning
June 11, 2025
Auteurs: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
cs.AI
Résumé
Bien que les grands modèles de langage (LLMs) basés sur le raisonnement aient excellé en mathématiques et en programmation, leurs capacités dans le domaine des questions-réponses médicales nécessitant une expertise approfondie restent peu explorées. Pour remédier à cela, nous présentons ReasonMed, le plus grand ensemble de données dédié au raisonnement médical, comprenant 370 000 exemples de haute qualité distillés à partir de 1,7 million de chemins de raisonnement initiaux générés par divers LLMs. ReasonMed est construit grâce à un processus de vérification et d'affinage multi-agent, où nous concevons un « Error Refiner » pour améliorer les chemins de raisonnement en identifiant et en corrigeant les étapes sujettes à erreurs signalées par un vérificateur. En exploitant ReasonMed, nous étudions systématiquement les meilleures pratiques pour entraîner des modèles de raisonnement médical et constatons que la combinaison d'un raisonnement détaillé en chaîne de pensée (Chain-of-Thought, CoT) avec des résumés de réponses concis constitue la stratégie de fine-tuning la plus efficace. Sur la base de cette stratégie, nous entraînons ReasonMed-7B, qui établit un nouveau référentiel pour les modèles de moins de 10 milliards de paramètres, surpassant le précédent meilleur modèle de 4,17 % et dépassant même LLaMA3.1-70B sur PubMedQA de 4,60 %.
English
Though reasoning-based large language models (LLMs) have excelled in
mathematics and programming, their capabilities in knowledge-intensive medical
question answering remain underexplored. To address this, we introduce
ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality
examples distilled from 1.7 million initial reasoning paths generated by
various LLMs. ReasonMed is constructed through a multi-agent
verification and refinement process, where we design an Error Refiner
to enhance the reasoning paths by identifying and correcting error-prone steps
flagged by a verifier. Leveraging ReasonMed, we systematically investigate best
practices for training medical reasoning models and find that combining
detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields
the most effective fine-tuning strategy. Based on this strategy, we train
ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the
prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.