Lingshu: Un Modello Fondamentale Generalista per la Comprensione e il Ragionamento Multimodale Unificato in Ambito Medico
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
June 8, 2025
Autori: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato capacità impressionanti nella comprensione di elementi visivi comuni, grazie principalmente ai loro dataset su larga scala e alle avanzate strategie di addestramento. Tuttavia, la loro efficacia nelle applicazioni mediche rimane limitata a causa delle discrepanze intrinseche tra i dati e i compiti negli scenari medici rispetto a quelli del dominio generale. Nello specifico, gli attuali MLLMs medici presentano le seguenti limitazioni critiche: (1) copertura limitata della conoscenza medica al di là delle immagini, (2) maggiore suscettibilità alle allucinazioni dovuta a processi di curatela dei dati non ottimali, (3) mancanza di capacità di ragionamento adattate a scenari medici complessi. Per affrontare queste sfide, proponiamo innanzitutto una procedura completa di curatela dei dati che (1) acquisisce in modo efficiente dati ricchi di conoscenza medica non solo dalle immagini mediche ma anche da testi medici estesi e dati di dominio generale; e (2) sintetizza descrizioni mediche accurate, risposte a domande visive (VQA) e campioni di ragionamento. Di conseguenza, costruiamo un dataset multimodale arricchito con una vasta conoscenza medica. Basandoci sui dati curati, introduciamo il nostro MLLM specializzato in medicina: Lingshu. Lingshu viene sottoposto a un addestramento multi-fase per incorporare competenze mediche e migliorare progressivamente le sue capacità di risoluzione dei compiti. Inoltre, esploriamo preliminarmente il potenziale di applicare il paradigma del reinforcement learning con ricompense verificabili per migliorare la capacità di ragionamento medico di Lingshu. In aggiunta, sviluppiamo MedEvalKit, un framework di valutazione unificato che consolida i principali benchmark medici multimodali e testuali per una valutazione del modello standardizzata, equa ed efficiente. Valutiamo le prestazioni di Lingshu su tre compiti medici fondamentali: QA multimodale, QA basato su testo e generazione di referti medici. I risultati mostrano che Lingshu supera costantemente i modelli multimodali open-source esistenti nella maggior parte dei compiti...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities in understanding common visual elements, largely due to their
large-scale datasets and advanced training strategies. However, their
effectiveness in medical applications remains limited due to the inherent
discrepancies between data and tasks in medical scenarios and those in the
general domain. Concretely, existing medical MLLMs face the following critical
limitations: (1) limited coverage of medical knowledge beyond imaging, (2)
heightened susceptibility to hallucinations due to suboptimal data curation
processes, (3) lack of reasoning capabilities tailored for complex medical
scenarios. To address these challenges, we first propose a comprehensive data
curation procedure that (1) efficiently acquires rich medical knowledge data
not only from medical imaging but also from extensive medical texts and
general-domain data; and (2) synthesizes accurate medical captions, visual
question answering (VQA), and reasoning samples. As a result, we build a
multimodal dataset enriched with extensive medical knowledge. Building on the
curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu
undergoes multi-stage training to embed medical expertise and enhance its
task-solving capabilities progressively. Besides, we preliminarily explore the
potential of applying reinforcement learning with verifiable rewards paradigm
to enhance Lingshu's medical reasoning ability. Additionally, we develop
MedEvalKit, a unified evaluation framework that consolidates leading multimodal
and textual medical benchmarks for standardized, fair, and efficient model
assessment. We evaluate the performance of Lingshu on three fundamental medical
tasks, multimodal QA, text-based QA, and medical report generation. The results
show that Lingshu consistently outperforms the existing open-source multimodal
models on most tasks ...