BiMediX2 : Modèle de Langage Multimodal Expert en Bio-Médical pour Diverses Modalités Médicales
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
December 10, 2024
Auteurs: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI
Résumé
Cet article présente BiMediX2, un modèle multimodal large d'expertise biomédicale bilingue (arabe-anglais) avec une architecture unifiée qui intègre les modalités textuelles et visuelles, permettant une compréhension avancée des images et des applications médicales. BiMediX2 exploite l'architecture Llama3.1 et intègre les capacités textuelles et visuelles pour faciliter les interactions fluides en anglais et en arabe, prenant en charge les entrées basées sur le texte et les conversations multi-tours impliquant des images médicales. Le modèle est entraîné sur un vaste ensemble de données bilingues en santé composé de 1,6 million d'échantillons d'interactions médicales diverses pour les modalités textuelles et d'image, mélangées en arabe et en anglais. Nous proposons également le premier banc d'essai médical bilingue basé sur GPT-4o nommé BiMed-MBench. BiMediX2 est évalué sur des tâches basées sur le texte et l'image, atteignant des performances de pointe sur plusieurs bancs d'essai médicaux. Il surpasse les modèles récents de pointe dans les bancs d'essai d'évaluation des LMM médicaux. Notre modèle établit également une nouvelle référence dans les évaluations médicales multimodales avec plus de 9 % d'amélioration en anglais et plus de 20 % en arabe. De plus, il dépasse GPT-4 d'environ 9 % dans les évaluations de précision factuelle UPHILL et excelle dans diverses tâches de réponse à des questions visuelles médicales, de génération de rapports et de résumé de rapports. La page du projet, comprenant le code source et le modèle entraîné, est disponible sur https://github.com/mbzuai-oryx/BiMediX2.
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical
EXpert Large Multimodal Model (LMM) with a unified architecture that integrates
text and visual modalities, enabling advanced image understanding and medical
applications. BiMediX2 leverages the Llama3.1 architecture and integrates text
and visual capabilities to facilitate seamless interactions in both English and
Arabic, supporting text-based inputs and multi-turn conversations involving
medical images. The model is trained on an extensive bilingual healthcare
dataset consisting of 1.6M samples of diverse medical interactions for both
text and image modalities, mixed in Arabic and English. We also propose the
first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2
is benchmarked on both text-based and image-based tasks, achieving
state-of-the-art performance across several medical benchmarks. It outperforms
recent state-of-the-art models in medical LLM evaluation benchmarks. Our model
also sets a new benchmark in multimodal medical evaluations with over 9%
improvement in English and over 20% in Arabic evaluations. Additionally, it
surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels
in various medical Visual Question Answering, Report Generation, and Report
Summarization tasks. The project page including source code and the trained
model, is available at https://github.com/mbzuai-oryx/BiMediX2.Summary
AI-Generated Summary