HealthGPT: Ein medizinisches großes Vision-Sprach-Modell zur Vereinheitlichung von Verständnis und Generierung durch heterogene Wissensanpassung

papers.abstract

Wir präsentieren HealthGPT, ein leistungsstarkes Medizinisches Großes Vision-Sprache-Modell (Med-LVLM), das medizinische visuelle Verständnis- und Generierungsfähigkeiten in einem einheitlichen autoregressiven Paradigma integriert. Unsere Bootstrapping-Philosophie besteht darin, heterogenes Verständnis- und Generierungswissen schrittweise an vortrainierte große Sprachmodelle (LLMs) anzupassen. Dies wird durch eine neuartige heterogene Low-Rank-Adaptation (H-LoRA) Technik erreicht, die durch einen maßgeschneiderten hierarchischen visuellen Wahrnehmungsansatz und eine dreistufige Lernstrategie ergänzt wird. Um HealthGPT effektiv zu trainieren, entwickeln wir einen umfassenden medizinischen domänenspezifischen Verständnis- und Generierungsdatensatz namens VL-Health. Experimentelle Ergebnisse demonstrieren eine außergewöhnliche Leistung und Skalierbarkeit von HealthGPT in medizinischen visuellen einheitlichen Aufgaben. Unser Projekt ist unter https://github.com/DCDmllm/HealthGPT zugänglich.

English

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

HealthGPT: Ein medizinisches großes Vision-Sprach-Modell zur Vereinheitlichung von Verständnis und Generierung durch heterogene Wissensanpassung

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

papers.abstract

Support