HuatuoGPT-Vision: Auf dem Weg, medizinisches visuelles Wissen in multimodale LLMs im großen Maßstab zu integrieren.
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
June 27, 2024
Autoren: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
cs.AI
Zusammenfassung
Die rasante Entwicklung von multimodalen großen Sprachmodellen (MLLMs) wie GPT-4V hat zu bedeutenden Fortschritten geführt. Dennoch stehen diese Modelle immer noch vor Herausforderungen in den multimodalen medizinischen Fähigkeiten aufgrund von Einschränkungen in der Menge und Qualität von medizinischen Bild-Text-Daten, die auf Datenschutzbedenken und hohen Annotierungskosten beruhen. Während wegweisende Ansätze große, anonymisierte medizinische Bild-Text-Paare von PubMed nutzen, um diese Einschränkungen anzugehen, erreichen sie immer noch nicht das Ziel aufgrund inhärenter Datenrauschen. Um dies zu bewältigen, haben wir medizinische Bild-Text-Paare aus PubMed verfeinert und MLLMs (GPT-4V) in einer 'unverblindeten' Kapazität eingesetzt, um die Daten zu denoisieren und neu zu formatieren, was zur Erstellung des PubMedVision-Datensatzes mit 1,3 Millionen medizinischen VQA-Proben führte. Unsere Validierung zeigt, dass: (1) PubMedVision die medizinischen multimodalen Fähigkeiten aktueller MLLMs signifikant verbessern kann, was sich in signifikanten Verbesserungen bei Benchmarks wie dem MMMU Health & Medicine-Track zeigt; (2) manuelle Überprüfungen durch medizinische Experten und empirische Ergebnisse bestätigen die überlegene Datenqualität unseres Datensatzes im Vergleich zu anderen Methoden der Datenerstellung. Unter Verwendung von PubMedVision trainieren wir ein 34B medizinisches MLLM HuatuoGPT-Vision, das eine überlegene Leistung in medizinischen multimodalen Szenarien unter Open-Source MLLMs zeigt.
English
The rapid development of multimodal large language models (MLLMs), such as
GPT-4V, has led to significant advancements. However, these models still face
challenges in medical multimodal capabilities due to limitations in the
quantity and quality of medical vision-text data, stemming from data privacy
concerns and high annotation costs. While pioneering approaches utilize
PubMed's large-scale, de-identified medical image-text pairs to address these
limitations, they still fall short due to inherent data noise. To tackle this,
we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in
an 'unblinded' capacity to denoise and reformat the data, resulting in the
creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our
validation demonstrates that: (1) PubMedVision can significantly enhance the
medical multimodal capabilities of current MLLMs, showing significant
improvement in benchmarks including the MMMU Health & Medicine track; (2)
manual checks by medical experts and empirical results validate the superior
data quality of our dataset compared to other data construction methods. Using
PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows
superior performance in medical multimodal scenarios among open-source MLLMs.Summary
AI-Generated Summary