ChatPaper.aiChatPaper

ReasonMed: Мультиагентный набор данных объемом 370K для развития медицинского мышления

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

June 11, 2025
Авторы: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
cs.AI

Аннотация

Хотя крупные языковые модели (LLMs), основанные на рассуждениях, достигли значительных успехов в математике и программировании, их возможности в решении задач, требующих глубоких медицинских знаний, остаются недостаточно изученными. Для решения этой проблемы мы представляем ReasonMed — крупнейший набор данных для медицинских рассуждений, включающий 370 тысяч высококачественных примеров, отобранных из 1,7 миллиона начальных путей рассуждений, сгенерированных различными LLMs. ReasonMed создан с использованием многоагентного процесса проверки и уточнения, в рамках которого мы разработали Error Refiner для улучшения путей рассуждений путем выявления и исправления ошибок, отмеченных верификатором. Используя ReasonMed, мы систематически исследуем лучшие практики для обучения моделей медицинских рассуждений и обнаруживаем, что сочетание детализированных цепочек рассуждений (Chain-of-Thought, CoT) с краткими итоговыми ответами является наиболее эффективной стратегией тонкой настройки. На основе этой стратегии мы обучаем модель ReasonMed-7B, которая устанавливает новый стандарт для моделей с менее чем 10 миллиардами параметров, превосходя предыдущий лучший результат на 4,17% и даже опережая LLaMA3.1-70B на тесте PubMedQA на 4,60%.
English
Though reasoning-based large language models (LLMs) have excelled in mathematics and programming, their capabilities in knowledge-intensive medical question answering remain underexplored. To address this, we introduce ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality examples distilled from 1.7 million initial reasoning paths generated by various LLMs. ReasonMed is constructed through a multi-agent verification and refinement process, where we design an Error Refiner to enhance the reasoning paths by identifying and correcting error-prone steps flagged by a verifier. Leveraging ReasonMed, we systematically investigate best practices for training medical reasoning models and find that combining detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields the most effective fine-tuning strategy. Based on this strategy, we train ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.
PDF743June 13, 2025