HealthGPT: Um Modelo Médico de Grande Porte de Visão e Linguagem para Unificação de Compreensão e Geração via Adaptação de Conhecimento Heterogêneo

Resumo

Apresentamos o HealthGPT, um poderoso Modelo Médico de Grande Escala Visão-Linguagem (Med-LVLM) que integra capacidades de compreensão e geração visual médica dentro de um paradigma autogerativo unificado. Nossa filosofia de inicialização é adaptar progressivamente conhecimentos heterogêneos de compreensão e geração a modelos de linguagem de grande escala (LLMs) pré-treinados. Isso é alcançado por meio de uma nova técnica de adaptação heterogênea de baixo posto (H-LoRA), complementada por uma abordagem hierárquica de percepção visual personalizada e uma estratégia de aprendizado em três estágios. Para efetivamente treinar o HealthGPT, desenvolvemos um conjunto de dados abrangente específico do domínio médico para compreensão e geração, chamado VL-Health. Os resultados experimentais demonstram um desempenho excepcional e escalabilidade do HealthGPT em tarefas unificadas de visão médica. Nosso projeto pode ser acessado em https://github.com/DCDmllm/HealthGPT.

English

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

HealthGPT: Um Modelo Médico de Grande Porte de Visão e Linguagem para Unificação de Compreensão e Geração via Adaptação de Conhecimento Heterogêneo

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Resumo

Support