ChatPaper.aiChatPaper

HuatuoGPT-Vision, Verso l'Integrazione su Vasta Scala di Conoscenza Visiva Medica nei Modelli Linguistici Multimodali

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

June 27, 2024
Autori: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
cs.AI

Abstract

Il rapido sviluppo dei modelli linguistici multimodali di grandi dimensioni (MLLM), come GPT-4V, ha portato a progressi significativi. Tuttavia, questi modelli continuano a incontrare sfide nelle capacità multimodali in ambito medico a causa delle limitazioni nella quantità e qualità dei dati visivo-testuali medici, derivanti da preoccupazioni sulla privacy dei dati e dagli elevati costi di annotazione. Sebbene approcci pionieristici utilizzino coppie immagine-testo mediche su larga scala e de-identificate da PubMed per affrontare queste limitazioni, essi risultano ancora insufficienti a causa del rumore intrinseco nei dati. Per risolvere questo problema, abbiamo raffinato le coppie immagine-testo mediche da PubMed e impiegato MLLM (GPT-4V) in modalità "non oscurata" per ridurre il rumore e riformattare i dati, portando alla creazione del dataset PubMedVision con 1,3 milioni di campioni di domande e risposte visive mediche (VQA). La nostra validazione dimostra che: (1) PubMedVision può migliorare significativamente le capacità multimodali mediche degli attuali MLLM, mostrando un miglioramento rilevante nei benchmark, incluso il tracciato Salute & Medicina di MMMU; (2) controlli manuali da parte di esperti medici e risultati empirici convalidano la qualità superiore del nostro dataset rispetto ad altri metodi di costruzione dei dati. Utilizzando PubMedVision, abbiamo addestrato un MLLM medico da 34B, HuatuoGPT-Vision, che mostra prestazioni superiori negli scenari multimodali medici tra i MLLM open-source.
English
The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.
PDF639November 29, 2024