ChatPaper.aiChatPaper

Lingshu: Un Modello Fondamentale Generalista per la Comprensione e il Ragionamento Multimodale Unificato in Ambito Medico

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

June 8, 2025
Autori: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato capacità impressionanti nella comprensione di elementi visivi comuni, grazie principalmente ai loro dataset su larga scala e alle avanzate strategie di addestramento. Tuttavia, la loro efficacia nelle applicazioni mediche rimane limitata a causa delle discrepanze intrinseche tra i dati e i compiti negli scenari medici rispetto a quelli del dominio generale. Nello specifico, gli attuali MLLMs medici presentano le seguenti limitazioni critiche: (1) copertura limitata della conoscenza medica al di là delle immagini, (2) maggiore suscettibilità alle allucinazioni dovuta a processi di curatela dei dati non ottimali, (3) mancanza di capacità di ragionamento adattate a scenari medici complessi. Per affrontare queste sfide, proponiamo innanzitutto una procedura completa di curatela dei dati che (1) acquisisce in modo efficiente dati ricchi di conoscenza medica non solo dalle immagini mediche ma anche da testi medici estesi e dati di dominio generale; e (2) sintetizza descrizioni mediche accurate, risposte a domande visive (VQA) e campioni di ragionamento. Di conseguenza, costruiamo un dataset multimodale arricchito con una vasta conoscenza medica. Basandoci sui dati curati, introduciamo il nostro MLLM specializzato in medicina: Lingshu. Lingshu viene sottoposto a un addestramento multi-fase per incorporare competenze mediche e migliorare progressivamente le sue capacità di risoluzione dei compiti. Inoltre, esploriamo preliminarmente il potenziale di applicare il paradigma del reinforcement learning con ricompense verificabili per migliorare la capacità di ragionamento medico di Lingshu. In aggiunta, sviluppiamo MedEvalKit, un framework di valutazione unificato che consolida i principali benchmark medici multimodali e testuali per una valutazione del modello standardizzata, equa ed efficiente. Valutiamo le prestazioni di Lingshu su tre compiti medici fondamentali: QA multimodale, QA basato su testo e generazione di referti medici. I risultati mostrano che Lingshu supera costantemente i modelli multimodali open-source esistenti nella maggior parte dei compiti...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in understanding common visual elements, largely due to their large-scale datasets and advanced training strategies. However, their effectiveness in medical applications remains limited due to the inherent discrepancies between data and tasks in medical scenarios and those in the general domain. Concretely, existing medical MLLMs face the following critical limitations: (1) limited coverage of medical knowledge beyond imaging, (2) heightened susceptibility to hallucinations due to suboptimal data curation processes, (3) lack of reasoning capabilities tailored for complex medical scenarios. To address these challenges, we first propose a comprehensive data curation procedure that (1) efficiently acquires rich medical knowledge data not only from medical imaging but also from extensive medical texts and general-domain data; and (2) synthesizes accurate medical captions, visual question answering (VQA), and reasoning samples. As a result, we build a multimodal dataset enriched with extensive medical knowledge. Building on the curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu undergoes multi-stage training to embed medical expertise and enhance its task-solving capabilities progressively. Besides, we preliminarily explore the potential of applying reinforcement learning with verifiable rewards paradigm to enhance Lingshu's medical reasoning ability. Additionally, we develop MedEvalKit, a unified evaluation framework that consolidates leading multimodal and textual medical benchmarks for standardized, fair, and efficient model assessment. We evaluate the performance of Lingshu on three fundamental medical tasks, multimodal QA, text-based QA, and medical report generation. The results show that Lingshu consistently outperforms the existing open-source multimodal models on most tasks ...
PDF993June 10, 2025