ChatPaper.aiChatPaper

ReasonMed: Un conjunto de datos de 370K generado por múltiples agentes para el avance del razonamiento médico

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

June 11, 2025
Autores: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
cs.AI

Resumen

Aunque los modelos de lenguaje de gran escala (LLMs) basados en razonamiento han destacado en matemáticas y programación, sus capacidades en la respuesta a preguntas médicas intensivas en conocimiento siguen siendo poco exploradas. Para abordar esto, presentamos ReasonMed, el conjunto de datos de razonamiento médico más grande, que comprende 370k ejemplos de alta calidad destilados de 1.7 millones de rutas de razonamiento iniciales generadas por varios LLMs. ReasonMed se construye mediante un proceso de verificación y refinamiento multiagente, donde diseñamos un Refinador de Errores para mejorar las rutas de razonamiento identificando y corrigiendo pasos propensos a errores señalados por un verificador. Aprovechando ReasonMed, investigamos sistemáticamente las mejores prácticas para entrenar modelos de razonamiento médico y encontramos que combinar un razonamiento detallado de Cadena de Pensamiento (CoT) con resúmenes concisos de respuestas produce la estrategia de ajuste fino más efectiva. Basados en esta estrategia, entrenamos ReasonMed-7B, que establece un nuevo referente para modelos sub-10B, superando al mejor anterior en un 4.17% e incluso superando a LLaMA3.1-70B en PubMedQA en un 4.60%.
English
Though reasoning-based large language models (LLMs) have excelled in mathematics and programming, their capabilities in knowledge-intensive medical question answering remain underexplored. To address this, we introduce ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality examples distilled from 1.7 million initial reasoning paths generated by various LLMs. ReasonMed is constructed through a multi-agent verification and refinement process, where we design an Error Refiner to enhance the reasoning paths by identifying and correcting error-prone steps flagged by a verifier. Leveraging ReasonMed, we systematically investigate best practices for training medical reasoning models and find that combining detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields the most effective fine-tuning strategy. Based on this strategy, we train ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.
PDF743June 13, 2025