Lingshu: Ein generalistisches Basismodell für einheitliches multimodales medizinisches Verständnis und Schlussfolgern
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
June 8, 2025
Autoren: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten beim Verständnis allgemeiner visueller Elemente gezeigt, was vor allem auf ihre umfangreichen Datensätze und fortschrittlichen Trainingsstrategien zurückzuführen ist. Ihre Effektivität in medizinischen Anwendungen bleibt jedoch aufgrund der inhärenten Diskrepanzen zwischen Daten und Aufgaben in medizinischen Szenarien und denen im allgemeinen Bereich begrenzt. Konkret stehen bestehende medizinische MLLMs vor folgenden kritischen Einschränkungen: (1) begrenzte Abdeckung medizinischen Wissens über die Bildgebung hinaus, (2) erhöhte Anfälligkeit für Halluzinationen aufgrund suboptimaler Datenkuratierungsprozesse, (3) fehlende Fähigkeiten zur logischen Schlussfolgerung, die auf komplexe medizinische Szenarien zugeschnitten sind. Um diese Herausforderungen zu bewältigen, schlagen wir zunächst ein umfassendes Datenkuratierungsverfahren vor, das (1) effizient umfangreiche medizinische Wissensdaten nicht nur aus der medizinischen Bildgebung, sondern auch aus umfangreichen medizinischen Texten und allgemeinen Domänendaten erfasst; und (2) präzise medizinische Beschreibungen, visuelle Frage-Antwort-Systeme (VQA) und Beispiele für logische Schlussfolgerungen synthetisiert. Als Ergebnis erstellen wir einen multimodalen Datensatz, der mit umfangreichem medizinischen Wissen angereichert ist. Aufbauend auf den kuratierten Daten stellen wir unser medizinspezialisiertes MLLM vor: Lingshu. Lingshu durchläuft ein mehrstufiges Training, um medizinisches Fachwissen zu verankern und seine Fähigkeiten zur Aufgabenlösung schrittweise zu verbessern. Darüber hinaus untersuchen wir vorläufig das Potenzial der Anwendung von Reinforcement Learning mit einem Paradigma überprüfbarer Belohnungen, um die medizinische Schlussfolgerungsfähigkeit von Lingshu zu verbessern. Zusätzlich entwickeln wir MedEvalKit, ein einheitliches Bewertungsframework, das führende multimodale und textbasierte medizinische Benchmarks für eine standardisierte, faire und effiziente Modellbewertung konsolidiert. Wir bewerten die Leistung von Lingshu in drei grundlegenden medizinischen Aufgaben: multimodale Frage-Antwort-Systeme, textbasierte Frage-Antwort-Systeme und die Generierung medizinischer Berichte. Die Ergebnisse zeigen, dass Lingshu die bestehenden Open-Source-Multimodalmodelle bei den meisten Aufgaben konsequent übertrifft ...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities in understanding common visual elements, largely due to their
large-scale datasets and advanced training strategies. However, their
effectiveness in medical applications remains limited due to the inherent
discrepancies between data and tasks in medical scenarios and those in the
general domain. Concretely, existing medical MLLMs face the following critical
limitations: (1) limited coverage of medical knowledge beyond imaging, (2)
heightened susceptibility to hallucinations due to suboptimal data curation
processes, (3) lack of reasoning capabilities tailored for complex medical
scenarios. To address these challenges, we first propose a comprehensive data
curation procedure that (1) efficiently acquires rich medical knowledge data
not only from medical imaging but also from extensive medical texts and
general-domain data; and (2) synthesizes accurate medical captions, visual
question answering (VQA), and reasoning samples. As a result, we build a
multimodal dataset enriched with extensive medical knowledge. Building on the
curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu
undergoes multi-stage training to embed medical expertise and enhance its
task-solving capabilities progressively. Besides, we preliminarily explore the
potential of applying reinforcement learning with verifiable rewards paradigm
to enhance Lingshu's medical reasoning ability. Additionally, we develop
MedEvalKit, a unified evaluation framework that consolidates leading multimodal
and textual medical benchmarks for standardized, fair, and efficient model
assessment. We evaluate the performance of Lingshu on three fundamental medical
tasks, multimodal QA, text-based QA, and medical report generation. The results
show that Lingshu consistently outperforms the existing open-source multimodal
models on most tasks ...