Lingshu: Um Modelo de Base Generalista para Compreensão e Raciocínio Médico Multimodal Unificado

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

June 8, 2025
Autores: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes na compreensão de elementos visuais comuns, em grande parte devido aos seus conjuntos de dados em larga escala e estratégias avançadas de treinamento. No entanto, sua eficácia em aplicações médicas permanece limitada devido às discrepâncias inerentes entre os dados e tarefas em cenários médicos e aqueles no domínio geral. Concretamente, os MLLMs médicos existentes enfrentam as seguintes limitações críticas: (1) cobertura limitada de conhecimento médico além de imagens, (2) maior suscetibilidade a alucinações devido a processos de curadoria de dados subótimos, (3) falta de capacidades de raciocínio adaptadas para cenários médicos complexos. Para enfrentar esses desafios, propomos primeiro um procedimento abrangente de curadoria de dados que (1) adquire eficientemente dados ricos em conhecimento médico não apenas de imagens médicas, mas também de textos médicos extensos e dados do domínio geral; e (2) sintetiza legendas médicas precisas, amostras de resposta a perguntas visuais (VQA) e de raciocínio. Como resultado, construímos um conjunto de dados multimodal enriquecido com extenso conhecimento médico. Com base nos dados curados, introduzimos nosso MLLM especializado em medicina: Lingshu. O Lingshu passa por treinamento em múltiplas etapas para incorporar expertise médica e aprimorar progressivamente suas capacidades de resolução de tarefas. Além disso, exploramos preliminarmente o potencial de aplicar o paradigma de aprendizado por reforço com recompensas verificáveis para melhorar a capacidade de raciocínio médico do Lingshu. Adicionalmente, desenvolvemos o MedEvalKit, uma estrutura de avaliação unificada que consolida os principais benchmarks médicos multimodais e textuais para uma avaliação padronizada, justa e eficiente do modelo. Avaliamos o desempenho do Lingshu em três tarefas médicas fundamentais: QA multimodal, QA baseado em texto e geração de relatórios médicos. Os resultados mostram que o Lingshu supera consistentemente os modelos multimodais de código aberto existentes na maioria das tarefas...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in understanding common visual elements, largely due to their large-scale datasets and advanced training strategies. However, their effectiveness in medical applications remains limited due to the inherent discrepancies between data and tasks in medical scenarios and those in the general domain. Concretely, existing medical MLLMs face the following critical limitations: (1) limited coverage of medical knowledge beyond imaging, (2) heightened susceptibility to hallucinations due to suboptimal data curation processes, (3) lack of reasoning capabilities tailored for complex medical scenarios. To address these challenges, we first propose a comprehensive data curation procedure that (1) efficiently acquires rich medical knowledge data not only from medical imaging but also from extensive medical texts and general-domain data; and (2) synthesizes accurate medical captions, visual question answering (VQA), and reasoning samples. As a result, we build a multimodal dataset enriched with extensive medical knowledge. Building on the curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu undergoes multi-stage training to embed medical expertise and enhance its task-solving capabilities progressively. Besides, we preliminarily explore the potential of applying reinforcement learning with verifiable rewards paradigm to enhance Lingshu's medical reasoning ability. Additionally, we develop MedEvalKit, a unified evaluation framework that consolidates leading multimodal and textual medical benchmarks for standardized, fair, and efficient model assessment. We evaluate the performance of Lingshu on three fundamental medical tasks, multimodal QA, text-based QA, and medical report generation. The results show that Lingshu consistently outperforms the existing open-source multimodal models on most tasks ...
PDF1103June 10, 2025