BiMediX2: Bio-Medizinisches Experten-LMM für verschiedene medizinische Modalitäten
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
December 10, 2024
Autoren: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI
Zusammenfassung
Dieses Paper stellt BiMediX2 vor, ein zweisprachiges (Arabisch-Englisch) Bio-Medizinisches Experten Großes Multimodales Modell (LMM) mit einer vereinheitlichten Architektur, die Text- und visuelle Modalitäten integriert, um fortgeschrittenes Bildverständnis und medizinische Anwendungen zu ermöglichen. BiMediX2 nutzt die Llama3.1-Architektur und integriert Text- und visuelle Fähigkeiten, um nahtlose Interaktionen sowohl auf Englisch als auch auf Arabisch zu ermöglichen, unterstützt textbasierte Eingaben und mehrstufige Gespräche, die medizinische Bilder beinhalten. Das Modell wird auf einem umfangreichen zweisprachigen Gesundheitsdatensatz trainiert, der aus 1,6 Mio. Beispielen verschiedener medizinischer Interaktionen für Text- und Bildmodalitäten besteht, gemischt in Arabisch und Englisch. Wir schlagen auch den ersten zweisprachigen GPT-4o-basierten medizinischen LMM-Benchmark namens BiMed-MBench vor. BiMediX2 wird in textbasierten und bildbasierten Aufgaben benchmarked und erzielt Spitzenleistungen in mehreren medizinischen Benchmarks. Es übertrifft aktuelle Spitzenmodelle in medizinischen LLM-Evaluierungsbenchmarks. Unser Modell setzt auch einen neuen Maßstab in multimodalen medizinischen Evaluierungen mit über 9% Verbesserung in Englisch und über 20% in Arabisch. Darüber hinaus übertrifft es GPT-4 um etwa 9% in UPHILL-Faktengenauigkeitsevaluierungen und glänzt in verschiedenen medizinischen visuellen Frage-Antwort-, Berichterstellung- und Berichtszusammenfassungsaufgaben. Die Projektseite inklusive Quellcode und des trainierten Modells ist verfügbar unter https://github.com/mbzuai-oryx/BiMediX2.
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical
EXpert Large Multimodal Model (LMM) with a unified architecture that integrates
text and visual modalities, enabling advanced image understanding and medical
applications. BiMediX2 leverages the Llama3.1 architecture and integrates text
and visual capabilities to facilitate seamless interactions in both English and
Arabic, supporting text-based inputs and multi-turn conversations involving
medical images. The model is trained on an extensive bilingual healthcare
dataset consisting of 1.6M samples of diverse medical interactions for both
text and image modalities, mixed in Arabic and English. We also propose the
first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2
is benchmarked on both text-based and image-based tasks, achieving
state-of-the-art performance across several medical benchmarks. It outperforms
recent state-of-the-art models in medical LLM evaluation benchmarks. Our model
also sets a new benchmark in multimodal medical evaluations with over 9%
improvement in English and over 20% in Arabic evaluations. Additionally, it
surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels
in various medical Visual Question Answering, Report Generation, and Report
Summarization tasks. The project page including source code and the trained
model, is available at https://github.com/mbzuai-oryx/BiMediX2.Summary
AI-Generated Summary