Lingshu: Ein generalistisches Basismodell für einheitliches multimodales medizinisches Verständnis und Schlussfolgern

papers.abstract

Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten beim Verständnis allgemeiner visueller Elemente gezeigt, was vor allem auf ihre umfangreichen Datensätze und fortschrittlichen Trainingsstrategien zurückzuführen ist. Ihre Effektivität in medizinischen Anwendungen bleibt jedoch aufgrund der inhärenten Diskrepanzen zwischen Daten und Aufgaben in medizinischen Szenarien und denen im allgemeinen Bereich begrenzt. Konkret stehen bestehende medizinische MLLMs vor folgenden kritischen Einschränkungen: (1) begrenzte Abdeckung medizinischen Wissens über die Bildgebung hinaus, (2) erhöhte Anfälligkeit für Halluzinationen aufgrund suboptimaler Datenkuratierungsprozesse, (3) fehlende Fähigkeiten zur logischen Schlussfolgerung, die auf komplexe medizinische Szenarien zugeschnitten sind. Um diese Herausforderungen zu bewältigen, schlagen wir zunächst ein umfassendes Datenkuratierungsverfahren vor, das (1) effizient umfangreiche medizinische Wissensdaten nicht nur aus der medizinischen Bildgebung, sondern auch aus umfangreichen medizinischen Texten und allgemeinen Domänendaten erfasst; und (2) präzise medizinische Beschreibungen, visuelle Frage-Antwort-Systeme (VQA) und Beispiele für logische Schlussfolgerungen synthetisiert. Als Ergebnis erstellen wir einen multimodalen Datensatz, der mit umfangreichem medizinischen Wissen angereichert ist. Aufbauend auf den kuratierten Daten stellen wir unser medizinspezialisiertes MLLM vor: Lingshu. Lingshu durchläuft ein mehrstufiges Training, um medizinisches Fachwissen zu verankern und seine Fähigkeiten zur Aufgabenlösung schrittweise zu verbessern. Darüber hinaus untersuchen wir vorläufig das Potenzial der Anwendung von Reinforcement Learning mit einem Paradigma überprüfbarer Belohnungen, um die medizinische Schlussfolgerungsfähigkeit von Lingshu zu verbessern. Zusätzlich entwickeln wir MedEvalKit, ein einheitliches Bewertungsframework, das führende multimodale und textbasierte medizinische Benchmarks für eine standardisierte, faire und effiziente Modellbewertung konsolidiert. Wir bewerten die Leistung von Lingshu in drei grundlegenden medizinischen Aufgaben: multimodale Frage-Antwort-Systeme, textbasierte Frage-Antwort-Systeme und die Generierung medizinischer Berichte. Die Ergebnisse zeigen, dass Lingshu die bestehenden Open-Source-Multimodalmodelle bei den meisten Aufgaben konsequent übertrifft ...

English

Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in understanding common visual elements, largely due to their large-scale datasets and advanced training strategies. However, their effectiveness in medical applications remains limited due to the inherent discrepancies between data and tasks in medical scenarios and those in the general domain. Concretely, existing medical MLLMs face the following critical limitations: (1) limited coverage of medical knowledge beyond imaging, (2) heightened susceptibility to hallucinations due to suboptimal data curation processes, (3) lack of reasoning capabilities tailored for complex medical scenarios. To address these challenges, we first propose a comprehensive data curation procedure that (1) efficiently acquires rich medical knowledge data not only from medical imaging but also from extensive medical texts and general-domain data; and (2) synthesizes accurate medical captions, visual question answering (VQA), and reasoning samples. As a result, we build a multimodal dataset enriched with extensive medical knowledge. Building on the curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu undergoes multi-stage training to embed medical expertise and enhance its task-solving capabilities progressively. Besides, we preliminarily explore the potential of applying reinforcement learning with verifiable rewards paradigm to enhance Lingshu's medical reasoning ability. Additionally, we develop MedEvalKit, a unified evaluation framework that consolidates leading multimodal and textual medical benchmarks for standardized, fair, and efficient model assessment. We evaluate the performance of Lingshu on three fundamental medical tasks, multimodal QA, text-based QA, and medical report generation. The results show that Lingshu consistently outperforms the existing open-source multimodal models on most tasks ...

Lingshu: Ein generalistisches Basismodell für einheitliches multimodales medizinisches Verständnis und Schlussfolgern

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

papers.abstract

Support