HealthGPT:異種知識適応による理解と生成を統合する医療用大規模視覚言語モデル
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation
February 14, 2025
著者: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi
cs.AI
要旨
私たちはHealthGPTを紹介します。これは、医療視覚理解と生成能力を統合した強力な医療大規模視覚言語モデル(Med-LVLM)であり、統一された自己回帰パラダイム内で機能します。私たちのブートストラップ哲学は、異種の理解と生成の知識を事前学習済みの大規模言語モデル(LLM)に段階的に適応させることです。これは、新しい異種低ランク適応(H-LoRA)技術によって達成され、これに加えて、カスタマイズされた階層的視覚知覚アプローチと三段階の学習戦略が補完されています。HealthGPTを効果的に学習するために、VL-Healthと呼ばれる包括的な医療ドメイン固有の理解と生成データセットを考案しました。実験結果は、HealthGPTが医療視覚統一タスクにおいて卓越した性能とスケーラビリティを発揮することを示しています。私たちのプロジェクトはhttps://github.com/DCDmllm/HealthGPTでアクセスできます。
English
We present HealthGPT, a powerful Medical Large Vision-Language Model
(Med-LVLM) that integrates medical visual comprehension and generation
capabilities within a unified autoregressive paradigm. Our bootstrapping
philosophy is to progressively adapt heterogeneous comprehension and generation
knowledge to pre-trained large language models (LLMs). This is achieved through
a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is
complemented by a tailored hierarchical visual perception approach and a
three-stage learning strategy. To effectively learn the HealthGPT, we devise a
comprehensive medical domain-specific comprehension and generation dataset
called VL-Health. Experimental results demonstrate exceptional performance and
scalability of HealthGPT in medical visual unified tasks. Our project can be
accessed at https://github.com/DCDmllm/HealthGPT.Summary
AI-Generated Summary