Mejorando el razonamiento médico paso a paso y verificable en MLLMs

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han comenzado a demostrar capacidades de razonamiento robustas en tareas generales, aunque su aplicación en el ámbito médico sigue en sus etapas iniciales. La construcción de datos de entrenamiento de cadena de pensamiento (CoT, por sus siglas en inglés) es esencial para fortalecer las habilidades de razonamiento de los MLLMs médicos. Sin embargo, los enfoques existentes presentan una deficiencia al no ofrecer un marco integral para buscar y evaluar rutas de razonamiento efectivas hacia diagnósticos críticos. Para abordar este desafío, proponemos Mentor-Intern Collaborative Search (MICS), un esquema novedoso de búsqueda de rutas de razonamiento para generar datos médicos CoT rigurosos y efectivos. MICS primero aprovecha los modelos mentores para inicializar el razonamiento, paso a paso, luego solicita a cada modelo interno que continúe el pensamiento a lo largo de esas rutas iniciadas, y finalmente selecciona la ruta de razonamiento óptima según el rendimiento general de razonamiento de múltiples modelos internos. El rendimiento del razonamiento se determina mediante una puntuación MICS, que evalúa la calidad de las rutas de razonamiento generadas. Finalmente, construimos MMRP, un conjunto de datos de razonamiento médico multitarea con dificultad clasificada, y Chiron-o1, un nuevo MLLM médico diseñado mediante una estrategia de aprendizaje curricular, con capacidades robustas de respuesta visual a preguntas y razonamiento generalizable. Experimentos extensos demuestran que Chiron-o1, entrenado en nuestro conjunto de datos CoT construido utilizando MICS, logra un rendimiento de vanguardia en una lista de benchmarks de respuesta visual a preguntas y razonamiento médico. Los códigos están disponibles en GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.

English

Multimodal large language models (MLLMs) have begun to demonstrate robust reasoning capabilities on general tasks, yet their application in the medical domain remains in its early stages. Constructing chain-of-thought (CoT) training data is essential for bolstering the reasoning abilities of medical MLLMs. However, existing approaches exhibit a deficiency in offering a comprehensive framework for searching and evaluating effective reasoning paths towards critical diagnosis. To address this challenge, we propose Mentor-Intern Collaborative Search (MICS), a novel reasoning-path searching scheme to generate rigorous and effective medical CoT data. MICS first leverages mentor models to initialize the reasoning, one step at a time, then prompts each intern model to continue the thinking along those initiated paths, and finally selects the optimal reasoning path according to the overall reasoning performance of multiple intern models. The reasoning performance is determined by an MICS-Score, which assesses the quality of generated reasoning paths. Eventually, we construct MMRP, a multi-task medical reasoning dataset with ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum learning strategy, with robust visual question-answering and generalizable reasoning capabilities. Extensive experiments demonstrate that Chiron-o1, trained on our CoT dataset constructed using MICS, achieves state-of-the-art performance across a list of medical visual question answering and reasoning benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs