医療画像のためのマルチモーダルLLMの合成的汎化に関する研究On the Compositional Generalization of Multimodal LLMs for Medical
Imaging
マルチモーダル大規模言語モデル(MLLMs)は医療分野で大きな潜在能力を持っていますが、しばしば特定の医療領域におけるデータが不足しており、MLLMsが一般化に使用できる画像の種類を理解する必要性が強調されています。現在の研究では、複数タスクのトレーニングが単一タスクよりも優れていると示唆されており、異なるタスクが互いに利益をもたらすことができますが、これらのタスク内部の関係をしばしば見落としており、特定のタスクを強化するためのデータセットの選択に関する限られたガイダンスを提供しています。この現象を分析するために、我々は、学習した要素を再組み合わせることで新しい組み合わせを理解するモデルの能力である構成的一般化(CG)をガイドフレームワークとして採用しようとしました。医療画像はモダリティ、解剖領域、タスクによって正確に定義されるため、CGを探索する環境を自然に提供します。そのため、包括的な実験のために106の医療データセットを組み合わせてMed-MATを作成しました。実験は、MLLMsがCGを使用して見慣れない医療画像を理解し、複数タスクのトレーニングで観察される一般化の主要な要因の1つとしてCGを特定しました。さらに、さらなる研究では、CGがデータが限られているデータセットを効果的にサポートし、異なるバックボーン間で一貫したパフォーマンスを提供することが示され、その汎用性と広範な適用可能性が強調されました。Med-MATはhttps://github.com/FreedomIntelligence/Med-MAT で公開されています。