HuatuoGPT-Vision, hacia la integración de conocimiento visual médico en modelos de lenguaje multimodal a gran escala
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
June 27, 2024
Autores: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
cs.AI
Resumen
El rápido desarrollo de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), como GPT-4V, ha impulsado avances significativos. Sin embargo, estos modelos aún enfrentan desafíos en capacidades multimodales médicas debido a limitaciones en la cantidad y calidad de los datos de visión-texto médicos, derivadas de preocupaciones sobre la privacidad de los datos y los altos costos de anotación. Si bien enfoques pioneros utilizan pares de imagen-texto médico a gran escala y desidentificados de PubMed para abordar estas limitaciones, aún se quedan cortos debido al ruido inherente en los datos. Para resolver esto, refinamos pares de imagen-texto médico de PubMed y empleamos MLLMs (GPT-4V) en una capacidad "no cegada" para eliminar el ruido y reformatear los datos, lo que resultó en la creación del conjunto de datos PubMedVision con 1.3 millones de muestras de preguntas y respuestas visuales médicas (VQA). Nuestra validación demuestra que: (1) PubMedVision puede mejorar significativamente las capacidades multimodales médicas de los MLLMs actuales, mostrando una mejora notable en puntos de referencia, incluida la pista de Salud y Medicina de MMMU; (2) revisiones manuales por expertos médicos y resultados empíricos validan la calidad superior de nuestros datos en comparación con otros métodos de construcción de datos. Utilizando PubMedVision, entrenamos un MLLM médico de 34B llamado HuatuoGPT-Vision, que muestra un rendimiento superior en escenarios multimodales médicos entre los MLLMs de código abierto.
English
The rapid development of multimodal large language models (MLLMs), such as
GPT-4V, has led to significant advancements. However, these models still face
challenges in medical multimodal capabilities due to limitations in the
quantity and quality of medical vision-text data, stemming from data privacy
concerns and high annotation costs. While pioneering approaches utilize
PubMed's large-scale, de-identified medical image-text pairs to address these
limitations, they still fall short due to inherent data noise. To tackle this,
we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in
an 'unblinded' capacity to denoise and reformat the data, resulting in the
creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our
validation demonstrates that: (1) PubMedVision can significantly enhance the
medical multimodal capabilities of current MLLMs, showing significant
improvement in benchmarks including the MMMU Health & Medicine track; (2)
manual checks by medical experts and empirical results validate the superior
data quality of our dataset compared to other data construction methods. Using
PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows
superior performance in medical multimodal scenarios among open-source MLLMs.