Migliorare il ragionamento medico graduale e verificabile nei MLLM
Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
June 20, 2025
Autori: Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno iniziato a dimostrare capacità di ragionamento robuste su compiti generali, ma la loro applicazione nel dominio medico rimane nelle fasi iniziali. La costruzione di dati di training a catena di pensiero (CoT) è essenziale per potenziare le capacità di ragionamento degli MLLM medici. Tuttavia, gli approcci esistenti mostrano una carenza nell'offrire un quadro completo per la ricerca e la valutazione di percorsi di ragionamento efficaci verso una diagnosi critica. Per affrontare questa sfida, proponiamo Mentor-Intern Collaborative Search (MICS), un nuovo schema di ricerca di percorsi di ragionamento per generare dati CoT medici rigorosi ed efficaci. MICS sfrutta prima i modelli mentor per inizializzare il ragionamento, un passo alla volta, poi sollecita ogni modello intern a continuare il pensiero lungo quei percorsi iniziati, e infine seleziona il percorso di ragionamento ottimale in base alla performance complessiva di ragionamento di più modelli intern. La performance di ragionamento è determinata da un MICS-Score, che valuta la qualità dei percorsi di ragionamento generati. Alla fine, costruiamo MMRP, un dataset di ragionamento medico multi-task con difficoltà graduata, e Chiron-o1, un nuovo MLLM medico progettato tramite una strategia di apprendimento curriculare, con robuste capacità di risposta a domande visive e di ragionamento generalizzabile. Esperimenti estensivi dimostrano che Chiron-o1, addestrato sul nostro dataset CoT costruito utilizzando MICS, raggiunge prestazioni all'avanguardia in una serie di benchmark di risposta a domande visive e di ragionamento medico. I codici sono disponibili su GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
English
Multimodal large language models (MLLMs) have begun to demonstrate robust
reasoning capabilities on general tasks, yet their application in the medical
domain remains in its early stages. Constructing chain-of-thought (CoT)
training data is essential for bolstering the reasoning abilities of medical
MLLMs. However, existing approaches exhibit a deficiency in offering a
comprehensive framework for searching and evaluating effective reasoning paths
towards critical diagnosis. To address this challenge, we propose Mentor-Intern
Collaborative Search (MICS), a novel reasoning-path searching scheme to
generate rigorous and effective medical CoT data. MICS first leverages mentor
models to initialize the reasoning, one step at a time, then prompts each
intern model to continue the thinking along those initiated paths, and finally
selects the optimal reasoning path according to the overall reasoning
performance of multiple intern models. The reasoning performance is determined
by an MICS-Score, which assesses the quality of generated reasoning paths.
Eventually, we construct MMRP, a multi-task medical reasoning dataset with
ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum
learning strategy, with robust visual question-answering and generalizable
reasoning capabilities. Extensive experiments demonstrate that Chiron-o1,
trained on our CoT dataset constructed using MICS, achieves state-of-the-art
performance across a list of medical visual question answering and reasoning
benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing
Step-by-Step and Verifiable Medical Reasoning in MLLMs