ChatPaper.aiChatPaper

Улучшение пошагового и проверяемого медицинского рассуждения в мультимодальных языковых моделях (MLLMs)

Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

June 20, 2025
Авторы: Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) начали демонстрировать устойчивые способности к рассуждению в общих задачах, однако их применение в медицинской области всё ещё находится на ранних этапах. Создание данных для обучения с использованием цепочки рассуждений (CoT) является ключевым для усиления способностей медицинских MLLM к рассуждению. Однако существующие подходы не предлагают всеобъемлющей структуры для поиска и оценки эффективных путей рассуждения, ведущих к критически важным диагнозам. Для решения этой задачи мы предлагаем Mentor-Intern Collaborative Search (MICS) — новую схему поиска путей рассуждения для генерации строгих и эффективных медицинских данных CoT. MICS сначала использует модели-наставники для инициализации рассуждений шаг за шагом, затем предлагает каждой модели-стажёру продолжить мышление по этим начатым путям и, наконец, выбирает оптимальный путь рассуждения на основе общей производительности нескольких моделей-стажёров. Производительность рассуждений определяется с помощью MICS-Score, который оценивает качество сгенерированных путей рассуждения. В итоге мы создаём MMRP — многозадачный медицинский набор данных для рассуждений с ранжированной сложностью, и Chiron-o1 — новую медицинскую MLLM, разработанную с использованием стратегии обучения по учебному плану, обладающую устойчивыми способностями к визуальному ответу на вопросы и обобщаемым рассуждениям. Многочисленные эксперименты показывают, что Chiron-o1, обученная на нашем наборе данных CoT, созданном с использованием MICS, достигает наилучших результатов в ряде медицинских тестов на визуальное ответы на вопросы и рассуждения. Код доступен на GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
English
Multimodal large language models (MLLMs) have begun to demonstrate robust reasoning capabilities on general tasks, yet their application in the medical domain remains in its early stages. Constructing chain-of-thought (CoT) training data is essential for bolstering the reasoning abilities of medical MLLMs. However, existing approaches exhibit a deficiency in offering a comprehensive framework for searching and evaluating effective reasoning paths towards critical diagnosis. To address this challenge, we propose Mentor-Intern Collaborative Search (MICS), a novel reasoning-path searching scheme to generate rigorous and effective medical CoT data. MICS first leverages mentor models to initialize the reasoning, one step at a time, then prompts each intern model to continue the thinking along those initiated paths, and finally selects the optimal reasoning path according to the overall reasoning performance of multiple intern models. The reasoning performance is determined by an MICS-Score, which assesses the quality of generated reasoning paths. Eventually, we construct MMRP, a multi-task medical reasoning dataset with ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum learning strategy, with robust visual question-answering and generalizable reasoning capabilities. Extensive experiments demonstrate that Chiron-o1, trained on our CoT dataset constructed using MICS, achieves state-of-the-art performance across a list of medical visual question answering and reasoning benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
PDF72June 24, 2025