Verbesserung von schrittweisem und überprüfbarem medizinischem Denken in MLLMs

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben begonnen, robuste Fähigkeiten zur logischen Schlussfolgerung bei allgemeinen Aufgaben zu demonstrieren, doch ihre Anwendung im medizinischen Bereich befindet sich noch in den Anfängen. Die Erstellung von Chain-of-Thought (CoT)-Trainingsdaten ist entscheidend, um die Fähigkeiten zur logischen Schlussfolgerung von medizinischen MLLMs zu stärken. Bisherige Ansätze weisen jedoch einen Mangel an einem umfassenden Rahmenwerk auf, um effektive Denkpfade für kritische Diagnosen zu suchen und zu bewerten. Um diese Herausforderung zu bewältigen, schlagen wir Mentor-Intern Collaborative Search (MICS) vor, ein neuartiges Schema zur Suche nach Denkpfaden, um rigorose und effektive medizinische CoT-Daten zu generieren. MICS nutzt zunächst Mentor-Modelle, um die Schlussfolgerung Schritt für Schritt zu initialisieren, fordert dann jedes Intern-Modell auf, das Denken entlang dieser initiierten Pfade fortzusetzen, und wählt schließlich den optimalen Denkpfad basierend auf der Gesamtleistung der Schlussfolgerung mehrerer Intern-Modelle aus. Die Leistung der Schlussfolgerung wird durch einen MICS-Score bestimmt, der die Qualität der generierten Denkpfade bewertet. Schließlich erstellen wir MMRP, einen Multi-Task-Datensatz für medizinisches Denken mit abgestufter Schwierigkeit, und Chiron-o1, ein neues medizinisches MLLM, das durch eine Curriculum-Learning-Strategie entwickelt wurde und robuste Fähigkeiten zur visuellen Fragebeantwortung und generalisierbaren Schlussfolgerung aufweist. Umfangreiche Experimente zeigen, dass Chiron-o1, trainiert auf unserem mit MICS erstellten CoT-Datensatz, Spitzenleistungen in einer Reihe von Benchmarks für medizinische visuelle Fragebeantwortung und logische Schlussfolgerung erzielt. Der Code ist verfügbar unter GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.

English

Multimodal large language models (MLLMs) have begun to demonstrate robust reasoning capabilities on general tasks, yet their application in the medical domain remains in its early stages. Constructing chain-of-thought (CoT) training data is essential for bolstering the reasoning abilities of medical MLLMs. However, existing approaches exhibit a deficiency in offering a comprehensive framework for searching and evaluating effective reasoning paths towards critical diagnosis. To address this challenge, we propose Mentor-Intern Collaborative Search (MICS), a novel reasoning-path searching scheme to generate rigorous and effective medical CoT data. MICS first leverages mentor models to initialize the reasoning, one step at a time, then prompts each intern model to continue the thinking along those initiated paths, and finally selects the optimal reasoning path according to the overall reasoning performance of multiple intern models. The reasoning performance is determined by an MICS-Score, which assesses the quality of generated reasoning paths. Eventually, we construct MMRP, a multi-task medical reasoning dataset with ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum learning strategy, with robust visual question-answering and generalizable reasoning capabilities. Extensive experiments demonstrate that Chiron-o1, trained on our CoT dataset constructed using MICS, achieves state-of-the-art performance across a list of medical visual question answering and reasoning benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs