ChatPaper.aiChatPaper

ReasonMed: Un Dataset da 370K Generato da Agenti Multipli per il Progresso del Ragionamento Medico

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

June 11, 2025
Autori: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
cs.AI

Abstract

Sebbene i grandi modelli linguistici (LLM) basati sul ragionamento abbiano eccelso in matematica e programmazione, le loro capacità nel rispondere a domande mediche ad alta intensità di conoscenza rimangono poco esplorate. Per affrontare questa lacuna, introduciamo ReasonMed, il più grande dataset di ragionamento medico, composto da 370k esempi di alta qualità distillati da 1,7 milioni di percorsi di ragionamento iniziali generati da vari LLM. ReasonMed è costruito attraverso un processo di verifica e affinamento multi-agente, in cui progettiamo un Error Refiner per migliorare i percorsi di ragionamento identificando e correggendo i passaggi soggetti a errori segnalati da un verificatore. Sfruttando ReasonMed, investigiamo sistematicamente le migliori pratiche per addestrare modelli di ragionamento medico e scopriamo che combinare un ragionamento dettagliato a catena di pensiero (Chain-of-Thought, CoT) con riassunti concisi delle risposte rappresenta la strategia di fine-tuning più efficace. Basandoci su questa strategia, addestriamo ReasonMed-7B, che stabilisce un nuovo benchmark per i modelli sotto i 10 miliardi di parametri, superando il precedente migliore del 4,17% e superando persino LLaMA3.1-70B su PubMedQA del 4,60%.
English
Though reasoning-based large language models (LLMs) have excelled in mathematics and programming, their capabilities in knowledge-intensive medical question answering remain underexplored. To address this, we introduce ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality examples distilled from 1.7 million initial reasoning paths generated by various LLMs. ReasonMed is constructed through a multi-agent verification and refinement process, where we design an Error Refiner to enhance the reasoning paths by identifying and correcting error-prone steps flagged by a verifier. Leveraging ReasonMed, we systematically investigate best practices for training medical reasoning models and find that combining detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields the most effective fine-tuning strategy. Based on this strategy, we train ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.
PDF753June 13, 2025