HealthGPT: Un Modelo Médico de Gran Escala Visión-Lenguaje para Unificar Comprensión y Generación mediante Adaptación de Conocimiento Heterogéneo

Resumen

Presentamos HealthGPT, un potente Modelo Médico de Gran Visión-Lenguaje (Med-LVLM) que integra capacidades de comprensión y generación visual médica dentro de un paradigma autorregresivo unificado. Nuestra filosofía de arranque es adaptar progresivamente conocimientos heterogéneos de comprensión y generación a modelos de lenguaje preentrenados de gran escala (LLMs). Esto se logra mediante una novedosa técnica de adaptación heterogénea de bajo rango (H-LoRA), complementada por un enfoque de percepción visual jerárquica personalizado y una estrategia de aprendizaje en tres etapas. Para aprender eficazmente HealthGPT, diseñamos un conjunto de datos integral específico del dominio médico para comprensión y generación llamado VL-Health. Los resultados experimentales demuestran un rendimiento excepcional y escalabilidad de HealthGPT en tareas unificadas de visión médica. Nuestro proyecto puede consultarse en https://github.com/DCDmllm/HealthGPT.

English

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

HealthGPT: Un Modelo Médico de Gran Escala Visión-Lenguaje para Unificar Comprensión y Generación mediante Adaptación de Conocimiento Heterogéneo

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Resumen

Support