ChatPaper.aiChatPaper

BiMediX2: 多様な医療モダリティ向けのバイオメディカル専門家LMM

BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

December 10, 2024
著者: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI

要旨

本論文では、バイリンガル(アラビア語-英語)バイオメディカルEXpert Large Multimodal Model(LMM)であるBiMediX2を紹介します。このモデルは、テキストとビジュアルのモダリティを統合した統一アーキテクチャを持ち、高度な画像理解と医療応用を可能にします。BiMediX2はLlama3.1アーキテクチャを活用し、テキストとビジュアルの機能を統合して、英語とアラビア語の両方でシームレスな対話を促進し、医療画像を含むテキストベースの入力やマルチターンの会話をサポートします。このモデルは、1.6Mのサンプルから成る多様な医療インタラクションのバイリンガルヘルスケアデータセットでトレーニングされており、アラビア語と英語が混在しています。また、最初のバイリンガルGPT-4oベースの医療LMMベンチマークであるBiMed-MBenchを提案しています。BiMediX2は、テキストベースと画像ベースのタスクの両方でベンチマークを行い、いくつかの医療ベンチマークで最先端のパフォーマンスを達成しています。このモデルは、医療LLM評価ベンチマークで最近の最先端モデルを上回っています。さらに、英語では9%以上、アラビア語では20%以上の改善を達成し、GPT-4を約9%上回るUPHILL事実の正確性評価で優れ、さまざまな医療ビジュアルクエスチョンアンサリング、レポート生成、レポート要約タスクで優れています。プロジェクトページには、ソースコードとトレーニングされたモデルが掲載されています。https://github.com/mbzuai-oryx/BiMediX2
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical EXpert Large Multimodal Model (LMM) with a unified architecture that integrates text and visual modalities, enabling advanced image understanding and medical applications. BiMediX2 leverages the Llama3.1 architecture and integrates text and visual capabilities to facilitate seamless interactions in both English and Arabic, supporting text-based inputs and multi-turn conversations involving medical images. The model is trained on an extensive bilingual healthcare dataset consisting of 1.6M samples of diverse medical interactions for both text and image modalities, mixed in Arabic and English. We also propose the first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2 is benchmarked on both text-based and image-based tasks, achieving state-of-the-art performance across several medical benchmarks. It outperforms recent state-of-the-art models in medical LLM evaluation benchmarks. Our model also sets a new benchmark in multimodal medical evaluations with over 9% improvement in English and over 20% in Arabic evaluations. Additionally, it surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels in various medical Visual Question Answering, Report Generation, and Report Summarization tasks. The project page including source code and the trained model, is available at https://github.com/mbzuai-oryx/BiMediX2.

Summary

AI-Generated Summary

PDF282December 16, 2024