HealthGPT: Медицинская крупная визуально-языковая модель для объединения понимания и генерации через адаптацию гетерогенных знаний
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation
February 14, 2025
Авторы: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi
cs.AI
Аннотация
Мы представляем HealthGPT — мощную медицинскую крупную визуально-языковую модель (Med-LVLM), которая объединяет способности к медицинскому визуальному пониманию и генерации в рамках единой авторегрессивной парадигмы. Наша философия поэтапной адаптации заключается в постепенном переносе разнородных знаний о понимании и генерации на предварительно обученные крупные языковые модели (LLM). Это достигается с помощью новой техники гетерогенной низкоранговой адаптации (H-LoRA), которая дополняется специализированным иерархическим подходом к визуальному восприятию и трехэтапной стратегией обучения. Для эффективного обучения HealthGPT мы разработали комплексный набор данных для понимания и генерации в медицинской области под названием VL-Health. Экспериментальные результаты демонстрируют выдающуюся производительность и масштабируемость HealthGPT в задачах медицинского визуального объединения. Наш проект доступен по адресу https://github.com/DCDmllm/HealthGPT.
English
We present HealthGPT, a powerful Medical Large Vision-Language Model
(Med-LVLM) that integrates medical visual comprehension and generation
capabilities within a unified autoregressive paradigm. Our bootstrapping
philosophy is to progressively adapt heterogeneous comprehension and generation
knowledge to pre-trained large language models (LLMs). This is achieved through
a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is
complemented by a tailored hierarchical visual perception approach and a
three-stage learning strategy. To effectively learn the HealthGPT, we devise a
comprehensive medical domain-specific comprehension and generation dataset
called VL-Health. Experimental results demonstrate exceptional performance and
scalability of HealthGPT in medical visual unified tasks. Our project can be
accessed at https://github.com/DCDmllm/HealthGPT.Summary
AI-Generated Summary