Med-Flamingo: un Aprendiz Multimodal Médico con Pocos Ejemplos
Med-Flamingo: a Multimodal Medical Few-shot Learner
July 27, 2023
Autores: Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
cs.AI
Resumen
La medicina, por su naturaleza, es un dominio multifacético que requiere la síntesis de información a través de diversas modalidades. Los modelos generativos de visión y lenguaje (VLMs) en medicina dan un primer paso en esta dirección y prometen muchas aplicaciones clínicas emocionantes. Sin embargo, los modelos existentes generalmente deben ajustarse en conjuntos de datos considerables de tareas específicas, lo que representa una limitación significativa, ya que en muchas aplicaciones médicas los datos son escasos, lo que exige modelos capaces de aprender a partir de pocos ejemplos en tiempo real. Aquí proponemos Med-Flamingo, un aprendiz multimodal de pocos ejemplos adaptado al dominio médico. Basado en OpenFlamingo-9B, continuamos el preentrenamiento con datos de imágenes y texto médico emparejados e intercalados provenientes de publicaciones y libros de texto. Med-Flamingo desbloquea habilidades generativas de respuesta a preguntas visuales (VQA) médicas con pocos ejemplos, las cuales evaluamos en varios conjuntos de datos, incluyendo un nuevo y desafiante conjunto de datos de preguntas abiertas de estilo USMLE. Además, realizamos la primera evaluación humana para VQA médica generativa, donde los médicos revisan los problemas y las respuestas generadas de manera ciega en una aplicación interactiva. Med-Flamingo mejora el rendimiento en VQA médica generativa hasta en un 20\% según la calificación de los clínicos y, por primera vez, permite adaptaciones médicas multimodales con pocos ejemplos, como la generación de razonamientos. Publicamos nuestro modelo, código y aplicación de evaluación en https://github.com/snap-stanford/med-flamingo.
English
Medicine, by its nature, is a multifaceted domain that requires the synthesis
of information across various modalities. Medical generative vision-language
models (VLMs) make a first step in this direction and promise many exciting
clinical applications. However, existing models typically have to be fine-tuned
on sizeable down-stream datasets, which poses a significant limitation as in
many medical applications data is scarce, necessitating models that are capable
of learning from few examples in real-time. Here we propose Med-Flamingo, a
multimodal few-shot learner adapted to the medical domain. Based on
OpenFlamingo-9B, we continue pre-training on paired and interleaved medical
image-text data from publications and textbooks. Med-Flamingo unlocks few-shot
generative medical visual question answering (VQA) abilities, which we evaluate
on several datasets including a novel challenging open-ended VQA dataset of
visual USMLE-style problems. Furthermore, we conduct the first human evaluation
for generative medical VQA where physicians review the problems and blinded
generations in an interactive app. Med-Flamingo improves performance in
generative medical VQA by up to 20\% in clinician's rating and firstly enables
multimodal medical few-shot adaptations, such as rationale generation. We
release our model, code, and evaluation app under
https://github.com/snap-stanford/med-flamingo.