ChatPaper.aiChatPaper

ReasonMed: Um Conjunto de Dados de 370K Gerado por Multiagentes para Avançar o Raciocínio Médico

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

June 11, 2025
Autores: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
cs.AI

Resumo

Embora os grandes modelos de linguagem (LLMs) baseados em raciocínio tenham se destacado em matemática e programação, suas capacidades em tarefas de questionamento médico intensivas em conhecimento permanecem pouco exploradas. Para abordar isso, introduzimos o ReasonMed, o maior conjunto de dados de raciocínio médico, composto por 370 mil exemplos de alta qualidade, destilados a partir de 1,7 milhão de caminhos de raciocínio iniciais gerados por diversos LLMs. O ReasonMed é construído por meio de um processo de verificação e refinamento multiagente, no qual projetamos um Refinador de Erros para aprimorar os caminhos de raciocínio, identificando e corrigindo etapas propensas a erros sinalizadas por um verificador. Utilizando o ReasonMed, investigamos sistematicamente as melhores práticas para treinar modelos de raciocínio médico e descobrimos que combinar raciocínios detalhados de Chain-of-Thought (CoT) com resumos concisos de respostas resulta na estratégia de ajuste fino mais eficaz. Com base nessa estratégia, treinamos o ReasonMed-7B, que estabelece um novo padrão para modelos com menos de 10 bilhões de parâmetros, superando o melhor modelo anterior em 4,17% e até mesmo excedendo o LLaMA3.1-70B no PubMedQA em 4,60%.
English
Though reasoning-based large language models (LLMs) have excelled in mathematics and programming, their capabilities in knowledge-intensive medical question answering remain underexplored. To address this, we introduce ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality examples distilled from 1.7 million initial reasoning paths generated by various LLMs. ReasonMed is constructed through a multi-agent verification and refinement process, where we design an Error Refiner to enhance the reasoning paths by identifying and correcting error-prone steps flagged by a verifier. Leveraging ReasonMed, we systematically investigate best practices for training medical reasoning models and find that combining detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields the most effective fine-tuning strategy. Based on this strategy, we train ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.
PDF763June 13, 2025