HealthGPT : Un modèle médical multimodal de grande taille unifiant compréhension et génération via l'adaptation de connaissances hétérogènes
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation
February 14, 2025
Auteurs: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi
cs.AI
Résumé
Nous présentons HealthGPT, un puissant modèle médical de vision et langage à grande échelle (Med-LVLM) qui intègre des capacités de compréhension et de génération visuelles médicales dans un paradigme autorégressif unifié. Notre philosophie de démarrage consiste à adapter progressivement des connaissances hétérogènes de compréhension et de génération à des modèles de langage pré-entraînés (LLMs). Cela est réalisé grâce à une technique innovante d'adaptation hétérogène à faible rang (H-LoRA), complétée par une approche de perception visuelle hiérarchique sur mesure et une stratégie d'apprentissage en trois étapes. Pour entraîner efficacement HealthGPT, nous avons conçu un ensemble de données complet spécifique au domaine médical pour la compréhension et la génération, appelé VL-Health. Les résultats expérimentaux démontrent des performances exceptionnelles et une grande évolutivité de HealthGPT dans des tâches unifiées de vision médicale. Notre projet est accessible à l'adresse suivante : https://github.com/DCDmllm/HealthGPT.
English
We present HealthGPT, a powerful Medical Large Vision-Language Model
(Med-LVLM) that integrates medical visual comprehension and generation
capabilities within a unified autoregressive paradigm. Our bootstrapping
philosophy is to progressively adapt heterogeneous comprehension and generation
knowledge to pre-trained large language models (LLMs). This is achieved through
a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is
complemented by a tailored hierarchical visual perception approach and a
three-stage learning strategy. To effectively learn the HealthGPT, we devise a
comprehensive medical domain-specific comprehension and generation dataset
called VL-Health. Experimental results demonstrate exceptional performance and
scalability of HealthGPT in medical visual unified tasks. Our project can be
accessed at https://github.com/DCDmllm/HealthGPT.Summary
AI-Generated Summary