Lingshu: Um Modelo de Base Generalista para Compreensão e Raciocínio Médico Multimodal Unificado
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
June 8, 2025
Autores: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes na compreensão de elementos visuais comuns, em grande parte devido aos seus conjuntos de dados em larga escala e estratégias avançadas de treinamento. No entanto, sua eficácia em aplicações médicas permanece limitada devido às discrepâncias inerentes entre os dados e tarefas em cenários médicos e aqueles no domínio geral. Concretamente, os MLLMs médicos existentes enfrentam as seguintes limitações críticas: (1) cobertura limitada de conhecimento médico além de imagens, (2) maior suscetibilidade a alucinações devido a processos de curadoria de dados subótimos, (3) falta de capacidades de raciocínio adaptadas para cenários médicos complexos. Para enfrentar esses desafios, propomos primeiro um procedimento abrangente de curadoria de dados que (1) adquire eficientemente dados ricos em conhecimento médico não apenas de imagens médicas, mas também de textos médicos extensos e dados do domínio geral; e (2) sintetiza legendas médicas precisas, amostras de resposta a perguntas visuais (VQA) e de raciocínio. Como resultado, construímos um conjunto de dados multimodal enriquecido com extenso conhecimento médico. Com base nos dados curados, introduzimos nosso MLLM especializado em medicina: Lingshu. O Lingshu passa por treinamento em múltiplas etapas para incorporar expertise médica e aprimorar progressivamente suas capacidades de resolução de tarefas. Além disso, exploramos preliminarmente o potencial de aplicar o paradigma de aprendizado por reforço com recompensas verificáveis para melhorar a capacidade de raciocínio médico do Lingshu. Adicionalmente, desenvolvemos o MedEvalKit, uma estrutura de avaliação unificada que consolida os principais benchmarks médicos multimodais e textuais para uma avaliação padronizada, justa e eficiente do modelo. Avaliamos o desempenho do Lingshu em três tarefas médicas fundamentais: QA multimodal, QA baseado em texto e geração de relatórios médicos. Os resultados mostram que o Lingshu supera consistentemente os modelos multimodais de código aberto existentes na maioria das tarefas...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities in understanding common visual elements, largely due to their
large-scale datasets and advanced training strategies. However, their
effectiveness in medical applications remains limited due to the inherent
discrepancies between data and tasks in medical scenarios and those in the
general domain. Concretely, existing medical MLLMs face the following critical
limitations: (1) limited coverage of medical knowledge beyond imaging, (2)
heightened susceptibility to hallucinations due to suboptimal data curation
processes, (3) lack of reasoning capabilities tailored for complex medical
scenarios. To address these challenges, we first propose a comprehensive data
curation procedure that (1) efficiently acquires rich medical knowledge data
not only from medical imaging but also from extensive medical texts and
general-domain data; and (2) synthesizes accurate medical captions, visual
question answering (VQA), and reasoning samples. As a result, we build a
multimodal dataset enriched with extensive medical knowledge. Building on the
curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu
undergoes multi-stage training to embed medical expertise and enhance its
task-solving capabilities progressively. Besides, we preliminarily explore the
potential of applying reinforcement learning with verifiable rewards paradigm
to enhance Lingshu's medical reasoning ability. Additionally, we develop
MedEvalKit, a unified evaluation framework that consolidates leading multimodal
and textual medical benchmarks for standardized, fair, and efficient model
assessment. We evaluate the performance of Lingshu on three fundamental medical
tasks, multimodal QA, text-based QA, and medical report generation. The results
show that Lingshu consistently outperforms the existing open-source multimodal
models on most tasks ...