HuatuoGPT-Vision, Naar het Injecteren van Medische Visuele Kennis in Multimodale LLM's op Schaal
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
June 27, 2024
Auteurs: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
cs.AI
Samenvatting
De snelle ontwikkeling van multimodale grote taalmodellen (MLLMs), zoals GPT-4V, heeft tot aanzienlijke vooruitgang geleid. Deze modellen kampen echter nog steeds met uitdagingen op het gebied van medische multimodale capaciteiten vanwege beperkingen in de hoeveelheid en kwaliteit van medische visueel-tekstuele gegevens, die voortkomen uit zorgen over gegevensprivacy en hoge annotatiekosten. Hoewel baanbrekende benaderingen gebruikmaken van grootschalige, geanonimiseerde medische beeld-tekstparen van PubMed om deze beperkingen aan te pakken, schieten ze nog steeds tekort vanwege inherente ruis in de gegevens. Om dit aan te pakken, hebben we medische beeld-tekstparen van PubMed verfijnd en MLLMs (GPT-4V) in een 'ongeblindeerde' capaciteit ingezet om de gegevens te ontdoen van ruis en te herformatteren, wat resulteerde in de creatie van de PubMedVision-dataset met 1,3 miljoen medische VQA-voorbeelden. Onze validatie toont aan dat: (1) PubMedVision de medische multimodale capaciteiten van huidige MLLMs aanzienlijk kan verbeteren, met significante verbeteringen in benchmarks, waaronder de MMMU Health & Medicine-track; (2) handmatige controles door medische experts en empirische resultaten bevestigen de superieure gegevenskwaliteit van onze dataset in vergelijking met andere methoden voor gegevensconstructie. Met behulp van PubMedVision trainen we een 34B medisch MLLM, HuatuoGPT-Vision, dat superieure prestaties laat zien in medische multimodale scenario's onder open-source MLLMs.
English
The rapid development of multimodal large language models (MLLMs), such as
GPT-4V, has led to significant advancements. However, these models still face
challenges in medical multimodal capabilities due to limitations in the
quantity and quality of medical vision-text data, stemming from data privacy
concerns and high annotation costs. While pioneering approaches utilize
PubMed's large-scale, de-identified medical image-text pairs to address these
limitations, they still fall short due to inherent data noise. To tackle this,
we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in
an 'unblinded' capacity to denoise and reformat the data, resulting in the
creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our
validation demonstrates that: (1) PubMedVision can significantly enhance the
medical multimodal capabilities of current MLLMs, showing significant
improvement in benchmarks including the MMMU Health & Medicine track; (2)
manual checks by medical experts and empirical results validate the superior
data quality of our dataset compared to other data construction methods. Using
PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows
superior performance in medical multimodal scenarios among open-source MLLMs.