BiMediX2: Bio-Medische EXpert LMM voor Diverse Medische Modaliteiten
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
December 10, 2024
Auteurs: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI
Samenvatting
Dit artikel introduceert BiMediX2, een tweetalig (Arabisch-Engels) Bio-Medische EXpert Groot Multimodaal Model (LMM) met een uniforme architectuur die tekstuele en visuele modaliteiten integreert, waardoor geavanceerd begrip van afbeeldingen en medische toepassingen mogelijk is. BiMediX2 maakt gebruik van de Llama3.1-architectuur en integreert tekstuele en visuele mogelijkheden om naadloze interacties in zowel het Engels als het Arabisch te vergemakkelijken, met ondersteuning voor op tekst gebaseerde invoer en meerdelige gesprekken met medische afbeeldingen. Het model is getraind op een uitgebreide tweetalige gezondheidszorgdataset bestaande uit 1,6 miljoen voorbeelden van diverse medische interacties voor zowel tekstuele als visuele modaliteiten, gemengd in het Arabisch en Engels. We stellen ook de eerste tweetalige GPT-4o gebaseerde medische LMM benchmark voor genaamd BiMed-MBench. BiMediX2 wordt beoordeeld op zowel op tekst gebaseerde als op afbeeldingen gebaseerde taken en behaalt toonaangevende prestaties op verschillende medische benchmarks. Het overtreft recente state-of-the-art modellen in medische LLM-evaluatiebenchmarks. Ons model stelt ook een nieuwe norm in multimodale medische evaluaties met meer dan 9% verbetering in het Engels en meer dan 20% in Arabische evaluaties. Daarnaast overtreft het GPT-4 met ongeveer 9% in UPHILL feitelijke nauwkeurigheidsevaluaties en excelleert het in verschillende medische Visual Question Answering, Report Generation en Report Summarization taken. De projectpagina inclusief broncode en het getrainde model is beschikbaar op https://github.com/mbzuai-oryx/BiMediX2.
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical
EXpert Large Multimodal Model (LMM) with a unified architecture that integrates
text and visual modalities, enabling advanced image understanding and medical
applications. BiMediX2 leverages the Llama3.1 architecture and integrates text
and visual capabilities to facilitate seamless interactions in both English and
Arabic, supporting text-based inputs and multi-turn conversations involving
medical images. The model is trained on an extensive bilingual healthcare
dataset consisting of 1.6M samples of diverse medical interactions for both
text and image modalities, mixed in Arabic and English. We also propose the
first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2
is benchmarked on both text-based and image-based tasks, achieving
state-of-the-art performance across several medical benchmarks. It outperforms
recent state-of-the-art models in medical LLM evaluation benchmarks. Our model
also sets a new benchmark in multimodal medical evaluations with over 9%
improvement in English and over 20% in Arabic evaluations. Additionally, it
surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels
in various medical Visual Question Answering, Report Generation, and Report
Summarization tasks. The project page including source code and the trained
model, is available at https://github.com/mbzuai-oryx/BiMediX2.