Het verbeteren van stapsgewijs en verifieerbaar medisch redeneren in MLLM's
Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
June 20, 2025
Auteurs: Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs) beginnen robuuste redeneervaardigheden te tonen bij algemene taken, maar hun toepassing in het medische domein bevindt zich nog in de beginfase. Het construeren van chain-of-thought (CoT) trainingsdata is essentieel om de redeneervaardigheden van medische MLLMs te versterken. Echter, bestaande benaderingen schieten tekort in het bieden van een uitgebreid raamwerk voor het zoeken en evalueren van effectieve redeneerpaden naar kritische diagnoses. Om deze uitdaging aan te pakken, stellen we Mentor-Intern Collaborative Search (MICS) voor, een nieuw redeneerpad-zoekingsschema om rigoureuze en effectieve medische CoT-data te genereren. MICS maakt eerst gebruik van mentor-modellen om het redeneren stap voor stap te initialiseren, waarna elk intern model wordt aangemoedigd om het denken voort te zetten langs deze geïnitieerde paden, en uiteindelijk wordt het optimale redeneerpad geselecteerd op basis van de algehele redeneerprestatie van meerdere intern-modellen. De redeneerprestatie wordt bepaald door een MICS-Score, die de kwaliteit van de gegenereerde redeneerpaden beoordeelt. Uiteindelijk construeren we MMRP, een multi-task medisch redeneerdataset met gerangschikte moeilijkheidsgraad, en Chiron-o1, een nieuw medisch MLLM ontwikkeld via een curriculumleerstrategie, met robuuste visuele vraag-beantwoording en generaliseerbare redeneervaardigheden. Uitgebreide experimenten tonen aan dat Chiron-o1, getraind op onze CoT-dataset die is geconstrueerd met behulp van MICS, state-of-the-art prestaties behaalt op een reeks medische visuele vraag-beantwoording en redeneerbenchmarks. Codes zijn beschikbaar op GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
English
Multimodal large language models (MLLMs) have begun to demonstrate robust
reasoning capabilities on general tasks, yet their application in the medical
domain remains in its early stages. Constructing chain-of-thought (CoT)
training data is essential for bolstering the reasoning abilities of medical
MLLMs. However, existing approaches exhibit a deficiency in offering a
comprehensive framework for searching and evaluating effective reasoning paths
towards critical diagnosis. To address this challenge, we propose Mentor-Intern
Collaborative Search (MICS), a novel reasoning-path searching scheme to
generate rigorous and effective medical CoT data. MICS first leverages mentor
models to initialize the reasoning, one step at a time, then prompts each
intern model to continue the thinking along those initiated paths, and finally
selects the optimal reasoning path according to the overall reasoning
performance of multiple intern models. The reasoning performance is determined
by an MICS-Score, which assesses the quality of generated reasoning paths.
Eventually, we construct MMRP, a multi-task medical reasoning dataset with
ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum
learning strategy, with robust visual question-answering and generalizable
reasoning capabilities. Extensive experiments demonstrate that Chiron-o1,
trained on our CoT dataset constructed using MICS, achieves state-of-the-art
performance across a list of medical visual question answering and reasoning
benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing
Step-by-Step and Verifiable Medical Reasoning in MLLMs