BiMediX2: Биомедицинская экспертная линейная модель для различных медицинских модальностей
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
December 10, 2024
Авторы: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI
Аннотация
Данный документ представляет BiMediX2, двуязычную (арабско-английскую) Био-Медицинскую
Экспертную Большую Мультимодальную Модель (LMM) с единой архитектурой, объединяющую
текстовые и визуальные модальности, обеспечивая продвинутое понимание изображений и медицинские
приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые
и визуальные возможности для обеспечения бесшовного взаимодействия как на английском,
так и на арабском языках, поддерживая текстовые вводы и многоходовые разговоры, включающие
медицинские изображения. Модель обучается на обширном двуязычном наборе данных
в области здравоохранения, состоящем из 1,6 миллиона образцов разнообразных медицинских взаимодействий
для текстовых и визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем
первый двуязычный бенчмарк медицинской LMM на основе GPT-4o под названием BiMed-MBench. BiMediX2
протестирован на задачах как на основе текста, так и на основе изображений, достигая
современных результатов на нескольких медицинских бенчмарках. Он превосходит
недавние современные модели в оценочных бенчмарках медицинских LLM. Наша модель
также устанавливает новый стандарт в мультимодальных медицинских оценках с более чем 9%
улучшением на английском и более чем 20% на арабском языке. Кроме того, он
превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и превосходит
в различных задачах медицинского визуального вопросно-ответного, генерации отчетов и
суммирования отчетов. Страница проекта, включая исходный код и обученную
модель, доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical
EXpert Large Multimodal Model (LMM) with a unified architecture that integrates
text and visual modalities, enabling advanced image understanding and medical
applications. BiMediX2 leverages the Llama3.1 architecture and integrates text
and visual capabilities to facilitate seamless interactions in both English and
Arabic, supporting text-based inputs and multi-turn conversations involving
medical images. The model is trained on an extensive bilingual healthcare
dataset consisting of 1.6M samples of diverse medical interactions for both
text and image modalities, mixed in Arabic and English. We also propose the
first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2
is benchmarked on both text-based and image-based tasks, achieving
state-of-the-art performance across several medical benchmarks. It outperforms
recent state-of-the-art models in medical LLM evaluation benchmarks. Our model
also sets a new benchmark in multimodal medical evaluations with over 9%
improvement in English and over 20% in Arabic evaluations. Additionally, it
surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels
in various medical Visual Question Answering, Report Generation, and Report
Summarization tasks. The project page including source code and the trained
model, is available at https://github.com/mbzuai-oryx/BiMediX2.Summary
AI-Generated Summary