ChatPaper.aiChatPaper

HealthGPT: Ein medizinisches großes Vision-Sprach-Modell zur Vereinheitlichung von Verständnis und Generierung durch heterogene Wissensanpassung

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

February 14, 2025
Autoren: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi
cs.AI

Zusammenfassung

Wir präsentieren HealthGPT, ein leistungsstarkes Medizinisches Großes Vision-Sprache-Modell (Med-LVLM), das medizinische visuelle Verständnis- und Generierungsfähigkeiten in einem einheitlichen autoregressiven Paradigma integriert. Unsere Bootstrapping-Philosophie besteht darin, heterogenes Verständnis- und Generierungswissen schrittweise an vortrainierte große Sprachmodelle (LLMs) anzupassen. Dies wird durch eine neuartige heterogene Low-Rank-Adaptation (H-LoRA) Technik erreicht, die durch einen maßgeschneiderten hierarchischen visuellen Wahrnehmungsansatz und eine dreistufige Lernstrategie ergänzt wird. Um HealthGPT effektiv zu trainieren, entwickeln wir einen umfassenden medizinischen domänenspezifischen Verständnis- und Generierungsdatensatz namens VL-Health. Experimentelle Ergebnisse demonstrieren eine außergewöhnliche Leistung und Skalierbarkeit von HealthGPT in medizinischen visuellen einheitlichen Aufgaben. Unser Projekt ist unter https://github.com/DCDmllm/HealthGPT zugänglich.
English
We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

Summary

AI-Generated Summary

PDF102February 19, 2025