HuatuoGPT-Vision, Rumo à Inclusão de Conhecimento Visual Médico em LLMs Multimodais em Escala
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
June 27, 2024
Autores: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
cs.AI
Resumo
O rápido desenvolvimento de modelos de linguagem multimodais grandes (MLLMs), como o GPT-4V, tem levado a avanços significativos. No entanto, esses modelos ainda enfrentam desafios nas capacidades multimodais médicas devido a limitações na quantidade e qualidade de dados médicos de visão-texto, decorrentes de preocupações com privacidade de dados e altos custos de anotação. Enquanto abordagens pioneiras utilizam pares de imagens e texto médicos em grande escala e desidentificados do PubMed para lidar com essas limitações, elas ainda ficam aquém devido ao ruído de dados inerente. Para enfrentar isso, refinamos pares de imagens e texto médicos do PubMed e empregamos MLLMs (GPT-4V) em uma capacidade 'não cega' para desfocar e reformatar os dados, resultando na criação do conjunto de dados PubMedVision com 1,3 milhão de amostras médicas de VQA. Nossa validação demonstra que: (1) o PubMedVision pode aprimorar significativamente as capacidades multimodais médicas dos MLLMs atuais, mostrando melhorias significativas em benchmarks, incluindo a trilha de Saúde e Medicina do MMMU; (2) verificações manuais por especialistas médicos e resultados empíricos validam a qualidade superior dos dados de nosso conjunto de dados em comparação com outros métodos de construção de dados. Usando o PubMedVision, treinamos um MLLM médico de 34B HuatuoGPT-Vision, que demonstra desempenho superior em cenários multimodais médicos entre os MLLMs de código aberto.
English
The rapid development of multimodal large language models (MLLMs), such as
GPT-4V, has led to significant advancements. However, these models still face
challenges in medical multimodal capabilities due to limitations in the
quantity and quality of medical vision-text data, stemming from data privacy
concerns and high annotation costs. While pioneering approaches utilize
PubMed's large-scale, de-identified medical image-text pairs to address these
limitations, they still fall short due to inherent data noise. To tackle this,
we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in
an 'unblinded' capacity to denoise and reformat the data, resulting in the
creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our
validation demonstrates that: (1) PubMedVision can significantly enhance the
medical multimodal capabilities of current MLLMs, showing significant
improvement in benchmarks including the MMMU Health & Medicine track; (2)
manual checks by medical experts and empirical results validate the superior
data quality of our dataset compared to other data construction methods. Using
PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows
superior performance in medical multimodal scenarios among open-source MLLMs.