ChatPaper.aiChatPaper

Amélioration du raisonnement médical étape par étape et vérifiable dans les MLLMs

Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

June 20, 2025
Auteurs: Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
cs.AI

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) commencent à démontrer des capacités de raisonnement robustes sur des tâches générales, mais leur application dans le domaine médical en est encore à ses débuts. La construction de données d'entraînement en chaîne de pensée (CoT) est essentielle pour renforcer les capacités de raisonnement des MLLMs médicaux. Cependant, les approches existantes présentent une lacune en ne proposant pas un cadre complet pour rechercher et évaluer des chemins de raisonnement efficaces vers un diagnostic critique. Pour relever ce défi, nous proposons Mentor-Intern Collaborative Search (MICS), un nouveau schéma de recherche de chemins de raisonnement pour générer des données CoT médicales rigoureuses et efficaces. MICS exploite d'abord des modèles mentors pour initialiser le raisonnement, étape par étape, puis incite chaque modèle interne à poursuivre la réflexion le long de ces chemins initiés, et enfin sélectionne le chemin de raisonnement optimal en fonction de la performance globale de raisonnement de plusieurs modèles internes. La performance de raisonnement est déterminée par un MICS-Score, qui évalue la qualité des chemins de raisonnement générés. Finalement, nous construisons MMRP, un ensemble de données de raisonnement médical multi-tâches avec un niveau de difficulté classé, et Chiron-o1, un nouveau MLLM médical conçu via une stratégie d'apprentissage curriculaire, doté de capacités robustes de réponse visuelle à des questions et de raisonnement généralisable. Des expériences approfondies démontrent que Chiron-o1, entraîné sur notre ensemble de données CoT construit en utilisant MICS, atteint des performances de pointe sur une liste de benchmarks de réponse visuelle à des questions et de raisonnement médical. Les codes sont disponibles sur GitHub - manglu097/Chiron-o1 : Amélioration du raisonnement médical étape par étape et vérifiable dans les MLLMs.
English
Multimodal large language models (MLLMs) have begun to demonstrate robust reasoning capabilities on general tasks, yet their application in the medical domain remains in its early stages. Constructing chain-of-thought (CoT) training data is essential for bolstering the reasoning abilities of medical MLLMs. However, existing approaches exhibit a deficiency in offering a comprehensive framework for searching and evaluating effective reasoning paths towards critical diagnosis. To address this challenge, we propose Mentor-Intern Collaborative Search (MICS), a novel reasoning-path searching scheme to generate rigorous and effective medical CoT data. MICS first leverages mentor models to initialize the reasoning, one step at a time, then prompts each intern model to continue the thinking along those initiated paths, and finally selects the optimal reasoning path according to the overall reasoning performance of multiple intern models. The reasoning performance is determined by an MICS-Score, which assesses the quality of generated reasoning paths. Eventually, we construct MMRP, a multi-task medical reasoning dataset with ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum learning strategy, with robust visual question-answering and generalizable reasoning capabilities. Extensive experiments demonstrate that Chiron-o1, trained on our CoT dataset constructed using MICS, achieves state-of-the-art performance across a list of medical visual question answering and reasoning benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
PDF72June 24, 2025