BiMediX2: Experto LMM Bio-Médico para Diversas Modalidades Médicas
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
December 10, 2024
Autores: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI
Resumen
Este documento presenta BiMediX2, un Modelo Multimodal Grande (LMM) experto en Bio-Medicina bilingüe (árabe-inglés) con una arquitectura unificada que integra modalidades de texto y visual, permitiendo una comprensión avanzada de imágenes y aplicaciones médicas. BiMediX2 aprovecha la arquitectura Llama3.1 e integra capacidades de texto y visual para facilitar interacciones fluidas tanto en inglés como en árabe, admitiendo entradas basadas en texto y conversaciones de múltiples turnos que involucran imágenes médicas. El modelo se entrena en un extenso conjunto de datos de atención médica bilingüe que consta de 1.6 millones de ejemplos de interacciones médicas diversas para ambas modalidades de texto e imagen, mezcladas en árabe e inglés. También proponemos el primer banco de pruebas bilingüe de LMM médico basado en GPT-4o llamado BiMed-MBench. BiMediX2 se evalúa en tareas basadas en texto e imagen, logrando un rendimiento de vanguardia en varios bancos de pruebas médicas. Supera a modelos de vanguardia recientes en bancos de pruebas de evaluación de LMM médicos. Nuestro modelo también establece un nuevo referente en evaluaciones médicas multimodales con más del 9% de mejora en inglés y más del 20% en evaluaciones en árabe. Además, supera a GPT-4 en aproximadamente un 9% en evaluaciones de precisión de hechos en UPHILL y destaca en varias tareas de Preguntas y Respuestas Visuales médicas, Generación de Informes y Resumen de Informes. La página del proyecto, que incluye el código fuente y el modelo entrenado, está disponible en https://github.com/mbzuai-oryx/BiMediX2.
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical
EXpert Large Multimodal Model (LMM) with a unified architecture that integrates
text and visual modalities, enabling advanced image understanding and medical
applications. BiMediX2 leverages the Llama3.1 architecture and integrates text
and visual capabilities to facilitate seamless interactions in both English and
Arabic, supporting text-based inputs and multi-turn conversations involving
medical images. The model is trained on an extensive bilingual healthcare
dataset consisting of 1.6M samples of diverse medical interactions for both
text and image modalities, mixed in Arabic and English. We also propose the
first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2
is benchmarked on both text-based and image-based tasks, achieving
state-of-the-art performance across several medical benchmarks. It outperforms
recent state-of-the-art models in medical LLM evaluation benchmarks. Our model
also sets a new benchmark in multimodal medical evaluations with over 9%
improvement in English and over 20% in Arabic evaluations. Additionally, it
surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels
in various medical Visual Question Answering, Report Generation, and Report
Summarization tasks. The project page including source code and the trained
model, is available at https://github.com/mbzuai-oryx/BiMediX2.Summary
AI-Generated Summary