Lingshu: Een Algemeen Fundamentmodel voor Geïntegreerde Multimodale Medische Begripsvorming en Redenering
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
June 8, 2025
Auteurs: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben indrukwekkende capaciteiten getoond in het begrijpen van algemene visuele elementen, grotendeels dankzij hun grootschalige datasets en geavanceerde trainingsstrategieën. Hun effectiviteit in medische toepassingen blijft echter beperkt vanwege de inherente verschillen tussen data en taken in medische scenario's en die in het algemene domein. Concreet worden bestaande medische MLLMs geconfronteerd met de volgende kritieke beperkingen: (1) beperkte dekking van medische kennis buiten beeldvorming, (2) verhoogde vatbaarheid voor hallucinaties door suboptimale datacuratieprocessen, (3) gebrek aan redeneervaardigheden die zijn afgestemd op complexe medische scenario's. Om deze uitdagingen aan te pakken, stellen we eerst een uitgebreide datacuratieprocedure voor die (1) efficiënt rijke medische kennisdata verkrijgt, niet alleen uit medische beeldvorming maar ook uit uitgebreide medische teksten en algemene domeindata; en (2) nauwkeurige medische bijschriften, visuele vraag-antwoord (VQA) en redeneervoorbeelden synthetiseert. Als resultaat bouwen we een multimodale dataset die is verrijkt met uitgebreide medische kennis. Op basis van de gecureerde data introduceren we onze medisch gespecialiseerde MLLM: Lingshu. Lingshu ondergaat een meerfasige training om medische expertise in te bedden en zijn taakoplossende capaciteiten geleidelijk te verbeteren. Daarnaast verkennen we voorlopig het potentieel van het toepassen van reinforcement learning met verifieerbare beloningsparadigma's om het medische redeneervermogen van Lingshu te versterken. Bovendien ontwikkelen we MedEvalKit, een geïntegreerd evaluatieraamwerk dat toonaangevende multimodale en tekstuele medische benchmarks consolideert voor gestandaardiseerde, eerlijke en efficiënte modelbeoordeling. We evalueren de prestaties van Lingshu op drie fundamentele medische taken: multimodale QA, tekstgebaseerde QA en het genereren van medische rapporten. De resultaten tonen aan dat Lingshu consistent beter presteert dan de bestaande open-source multimodale modellen bij de meeste taken ...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities in understanding common visual elements, largely due to their
large-scale datasets and advanced training strategies. However, their
effectiveness in medical applications remains limited due to the inherent
discrepancies between data and tasks in medical scenarios and those in the
general domain. Concretely, existing medical MLLMs face the following critical
limitations: (1) limited coverage of medical knowledge beyond imaging, (2)
heightened susceptibility to hallucinations due to suboptimal data curation
processes, (3) lack of reasoning capabilities tailored for complex medical
scenarios. To address these challenges, we first propose a comprehensive data
curation procedure that (1) efficiently acquires rich medical knowledge data
not only from medical imaging but also from extensive medical texts and
general-domain data; and (2) synthesizes accurate medical captions, visual
question answering (VQA), and reasoning samples. As a result, we build a
multimodal dataset enriched with extensive medical knowledge. Building on the
curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu
undergoes multi-stage training to embed medical expertise and enhance its
task-solving capabilities progressively. Besides, we preliminarily explore the
potential of applying reinforcement learning with verifiable rewards paradigm
to enhance Lingshu's medical reasoning ability. Additionally, we develop
MedEvalKit, a unified evaluation framework that consolidates leading multimodal
and textual medical benchmarks for standardized, fair, and efficient model
assessment. We evaluate the performance of Lingshu on three fundamental medical
tasks, multimodal QA, text-based QA, and medical report generation. The results
show that Lingshu consistently outperforms the existing open-source multimodal
models on most tasks ...