ChatPaper.aiChatPaper

Lingshu: Un modelo fundacional generalista para la comprensión y razonamiento médico multimodal unificado

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

June 8, 2025
Autores: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes para comprender elementos visuales comunes, en gran parte debido a sus conjuntos de datos a gran escala y estrategias de entrenamiento avanzadas. Sin embargo, su efectividad en aplicaciones médicas sigue siendo limitada debido a las discrepancias inherentes entre los datos y las tareas en escenarios médicos y aquellos del dominio general. Concretamente, los MLLMs médicos existentes enfrentan las siguientes limitaciones críticas: (1) cobertura limitada del conocimiento médico más allá de las imágenes, (2) mayor susceptibilidad a alucinaciones debido a procesos de curación de datos subóptimos, (3) falta de capacidades de razonamiento adaptadas a escenarios médicos complejos. Para abordar estos desafíos, primero proponemos un procedimiento integral de curación de datos que (1) adquiere de manera eficiente datos ricos en conocimiento médico no solo de imágenes médicas, sino también de textos médicos extensos y datos del dominio general; y (2) sintetiza descripciones médicas precisas, respuestas a preguntas visuales (VQA) y muestras de razonamiento. Como resultado, construimos un conjunto de datos multimodal enriquecido con un amplio conocimiento médico. Basándonos en los datos curados, presentamos nuestro MLLM especializado en medicina: Lingshu. Lingshu se somete a un entrenamiento en múltiples etapas para incorporar experiencia médica y mejorar progresivamente sus capacidades de resolución de tareas. Además, exploramos preliminarmente el potencial de aplicar el paradigma de aprendizaje por refuerzo con recompensas verificables para mejorar la capacidad de razonamiento médico de Lingshu. Adicionalmente, desarrollamos MedEvalKit, un marco de evaluación unificado que consolida los principales puntos de referencia médicos multimodales y textuales para una evaluación de modelos estandarizada, justa y eficiente. Evaluamos el rendimiento de Lingshu en tres tareas médicas fundamentales: preguntas y respuestas multimodales, preguntas y respuestas basadas en texto y generación de informes médicos. Los resultados muestran que Lingshu supera consistentemente a los modelos multimodales de código abierto existentes en la mayoría de las tareas...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in understanding common visual elements, largely due to their large-scale datasets and advanced training strategies. However, their effectiveness in medical applications remains limited due to the inherent discrepancies between data and tasks in medical scenarios and those in the general domain. Concretely, existing medical MLLMs face the following critical limitations: (1) limited coverage of medical knowledge beyond imaging, (2) heightened susceptibility to hallucinations due to suboptimal data curation processes, (3) lack of reasoning capabilities tailored for complex medical scenarios. To address these challenges, we first propose a comprehensive data curation procedure that (1) efficiently acquires rich medical knowledge data not only from medical imaging but also from extensive medical texts and general-domain data; and (2) synthesizes accurate medical captions, visual question answering (VQA), and reasoning samples. As a result, we build a multimodal dataset enriched with extensive medical knowledge. Building on the curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu undergoes multi-stage training to embed medical expertise and enhance its task-solving capabilities progressively. Besides, we preliminarily explore the potential of applying reinforcement learning with verifiable rewards paradigm to enhance Lingshu's medical reasoning ability. Additionally, we develop MedEvalKit, a unified evaluation framework that consolidates leading multimodal and textual medical benchmarks for standardized, fair, and efficient model assessment. We evaluate the performance of Lingshu on three fundamental medical tasks, multimodal QA, text-based QA, and medical report generation. The results show that Lingshu consistently outperforms the existing open-source multimodal models on most tasks ...
PDF993June 10, 2025