ChatPaper.aiChatPaper

HuatuoGPT-Vision, Vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles de langage multimodaux

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

June 27, 2024
Auteurs: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
cs.AI

Résumé

Le développement rapide des modèles de langage multimodaux de grande envergure (MLLMs), tels que GPT-4V, a conduit à des avancées significatives. Cependant, ces modèles rencontrent encore des défis dans leurs capacités multimodales médicales en raison des limitations quantitatives et qualitatives des données vision-texte médicales, issues de préoccupations liées à la confidentialité des données et aux coûts élevés d'annotation. Bien que des approches pionnières exploitent les paires image-texte médicales à grande échelle et dé-identifiées de PubMed pour pallier ces limitations, elles restent insuffisantes en raison du bruit inhérent aux données. Pour résoudre ce problème, nous avons affiné les paires image-texte médicales de PubMed et utilisé les MLLMs (GPT-4V) en mode « non aveugle » pour débruiter et reformater les données, aboutissant à la création du jeu de données PubMedVision contenant 1,3 million d'échantillons de questions-réponses visuelles médicales (VQA). Notre validation démontre que : (1) PubMedVision peut considérablement améliorer les capacités multimodales médicales des MLLMs actuels, montrant une amélioration significative dans les benchmarks, y compris la piste Santé & Médecine de MMMU ; (2) les vérifications manuelles par des experts médicaux et les résultats empiriques confirment la qualité supérieure de notre jeu de données par rapport à d'autres méthodes de construction de données. En utilisant PubMedVision, nous avons entraîné un MLLM médical de 34B, HuatuoGPT-Vision, qui montre des performances supérieures dans les scénarios multimodaux médicaux parmi les MLLMs open-source.
English
The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.

Summary

AI-Generated Summary

PDF659November 29, 2024