BiMediX2: Especialista em Aprendizado de Máquina Linear Multimodal para Diversas Modalidades Médicas
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
December 10, 2024
Autores: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI
Resumo
Este artigo apresenta o BiMediX2, um Modelo Multimodal Grande (LMM) especializado em Bio-Médica bilíngue (árabe-inglês) com uma arquitetura unificada que integra modalidades de texto e visual, permitindo uma compreensão avançada de imagens e aplicações médicas. O BiMediX2 aproveita a arquitetura Llama3.1 e integra capacidades de texto e visual para facilitar interações contínuas tanto em inglês quanto em árabe, suportando entradas baseadas em texto e conversas de várias etapas envolvendo imagens médicas. O modelo é treinado em um extenso conjunto de dados de saúde bilíngue composto por 1,6 milhões de amostras de interações médicas diversas para ambas as modalidades de texto e imagem, misturadas em árabe e inglês. Também propomos o primeiro benchmark médico bilíngue baseado em GPT-4o chamado BiMed-MBench. O BiMediX2 é avaliado em tarefas baseadas em texto e imagem, alcançando desempenho de ponta em vários benchmarks médicos. Supera modelos recentes de ponta em benchmarks de avaliação de LLM médico. Nosso modelo também estabelece um novo benchmark em avaliações médicas multimodais com mais de 9% de melhoria em inglês e mais de 20% em avaliações em árabe. Além disso, supera o GPT-4 em cerca de 9% nas avaliações de precisão factual UPHILL e se destaca em várias tarefas de Questionamento Visual Médico, Geração de Relatórios e Sumarização de Relatórios. A página do projeto, incluindo o código-fonte e o modelo treinado, está disponível em https://github.com/mbzuai-oryx/BiMediX2.
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical
EXpert Large Multimodal Model (LMM) with a unified architecture that integrates
text and visual modalities, enabling advanced image understanding and medical
applications. BiMediX2 leverages the Llama3.1 architecture and integrates text
and visual capabilities to facilitate seamless interactions in both English and
Arabic, supporting text-based inputs and multi-turn conversations involving
medical images. The model is trained on an extensive bilingual healthcare
dataset consisting of 1.6M samples of diverse medical interactions for both
text and image modalities, mixed in Arabic and English. We also propose the
first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2
is benchmarked on both text-based and image-based tasks, achieving
state-of-the-art performance across several medical benchmarks. It outperforms
recent state-of-the-art models in medical LLM evaluation benchmarks. Our model
also sets a new benchmark in multimodal medical evaluations with over 9%
improvement in English and over 20% in Arabic evaluations. Additionally, it
surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels
in various medical Visual Question Answering, Report Generation, and Report
Summarization tasks. The project page including source code and the trained
model, is available at https://github.com/mbzuai-oryx/BiMediX2.Summary
AI-Generated Summary