Verbesserung von schrittweisem und überprüfbarem medizinischem Denken in MLLMs
Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
June 20, 2025
Autoren: Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) haben begonnen, robuste Fähigkeiten zur logischen Schlussfolgerung bei allgemeinen Aufgaben zu demonstrieren, doch ihre Anwendung im medizinischen Bereich befindet sich noch in den Anfängen. Die Erstellung von Chain-of-Thought (CoT)-Trainingsdaten ist entscheidend, um die Fähigkeiten zur logischen Schlussfolgerung von medizinischen MLLMs zu stärken. Bisherige Ansätze weisen jedoch einen Mangel an einem umfassenden Rahmenwerk auf, um effektive Denkpfade für kritische Diagnosen zu suchen und zu bewerten. Um diese Herausforderung zu bewältigen, schlagen wir Mentor-Intern Collaborative Search (MICS) vor, ein neuartiges Schema zur Suche nach Denkpfaden, um rigorose und effektive medizinische CoT-Daten zu generieren. MICS nutzt zunächst Mentor-Modelle, um die Schlussfolgerung Schritt für Schritt zu initialisieren, fordert dann jedes Intern-Modell auf, das Denken entlang dieser initiierten Pfade fortzusetzen, und wählt schließlich den optimalen Denkpfad basierend auf der Gesamtleistung der Schlussfolgerung mehrerer Intern-Modelle aus. Die Leistung der Schlussfolgerung wird durch einen MICS-Score bestimmt, der die Qualität der generierten Denkpfade bewertet. Schließlich erstellen wir MMRP, einen Multi-Task-Datensatz für medizinisches Denken mit abgestufter Schwierigkeit, und Chiron-o1, ein neues medizinisches MLLM, das durch eine Curriculum-Learning-Strategie entwickelt wurde und robuste Fähigkeiten zur visuellen Fragebeantwortung und generalisierbaren Schlussfolgerung aufweist. Umfangreiche Experimente zeigen, dass Chiron-o1, trainiert auf unserem mit MICS erstellten CoT-Datensatz, Spitzenleistungen in einer Reihe von Benchmarks für medizinische visuelle Fragebeantwortung und logische Schlussfolgerung erzielt. Der Code ist verfügbar unter GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
English
Multimodal large language models (MLLMs) have begun to demonstrate robust
reasoning capabilities on general tasks, yet their application in the medical
domain remains in its early stages. Constructing chain-of-thought (CoT)
training data is essential for bolstering the reasoning abilities of medical
MLLMs. However, existing approaches exhibit a deficiency in offering a
comprehensive framework for searching and evaluating effective reasoning paths
towards critical diagnosis. To address this challenge, we propose Mentor-Intern
Collaborative Search (MICS), a novel reasoning-path searching scheme to
generate rigorous and effective medical CoT data. MICS first leverages mentor
models to initialize the reasoning, one step at a time, then prompts each
intern model to continue the thinking along those initiated paths, and finally
selects the optimal reasoning path according to the overall reasoning
performance of multiple intern models. The reasoning performance is determined
by an MICS-Score, which assesses the quality of generated reasoning paths.
Eventually, we construct MMRP, a multi-task medical reasoning dataset with
ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum
learning strategy, with robust visual question-answering and generalizable
reasoning capabilities. Extensive experiments demonstrate that Chiron-o1,
trained on our CoT dataset constructed using MICS, achieves state-of-the-art
performance across a list of medical visual question answering and reasoning
benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing
Step-by-Step and Verifiable Medical Reasoning in MLLMs