ReasonMed: Um Conjunto de Dados de 370K Gerado por Multiagentes para Avançar o Raciocínio Médico

Resumo

Embora os grandes modelos de linguagem (LLMs) baseados em raciocínio tenham se destacado em matemática e programação, suas capacidades em tarefas de questionamento médico intensivas em conhecimento permanecem pouco exploradas. Para abordar isso, introduzimos o ReasonMed, o maior conjunto de dados de raciocínio médico, composto por 370 mil exemplos de alta qualidade, destilados a partir de 1,7 milhão de caminhos de raciocínio iniciais gerados por diversos LLMs. O ReasonMed é construído por meio de um processo de verificação e refinamento multiagente, no qual projetamos um Refinador de Erros para aprimorar os caminhos de raciocínio, identificando e corrigindo etapas propensas a erros sinalizadas por um verificador. Utilizando o ReasonMed, investigamos sistematicamente as melhores práticas para treinar modelos de raciocínio médico e descobrimos que combinar raciocínios detalhados de Chain-of-Thought (CoT) com resumos concisos de respostas resulta na estratégia de ajuste fino mais eficaz. Com base nessa estratégia, treinamos o ReasonMed-7B, que estabelece um novo padrão para modelos com menos de 10 bilhões de parâmetros, superando o melhor modelo anterior em 4,17% e até mesmo excedendo o LLaMA3.1-70B no PubMedQA em 4,60%.

English

Though reasoning-based large language models (LLMs) have excelled in mathematics and programming, their capabilities in knowledge-intensive medical question answering remain underexplored. To address this, we introduce ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality examples distilled from 1.7 million initial reasoning paths generated by various LLMs. ReasonMed is constructed through a multi-agent verification and refinement process, where we design an Error Refiner to enhance the reasoning paths by identifying and correcting error-prone steps flagged by a verifier. Leveraging ReasonMed, we systematically investigate best practices for training medical reasoning models and find that combining detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields the most effective fine-tuning strategy. Based on this strategy, we train ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.

ReasonMed: Um Conjunto de Dados de 370K Gerado por Multiagentes para Avançar o Raciocínio Médico

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

Resumo

Support