Med-Flamingo: um Aprendizado Multimodal Médico com Poucos Exemplos
Med-Flamingo: a Multimodal Medical Few-shot Learner
July 27, 2023
Autores: Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
cs.AI
Resumo
A medicina, por sua natureza, é um domínio multifacetado que requer a síntese de informações de várias modalidades. Os modelos generativos visão-linguagem (VLMs) médicos dão um primeiro passo nessa direção e prometem muitas aplicações clínicas empolgantes. No entanto, os modelos existentes geralmente precisam ser ajustados em conjuntos de dados substanciais de tarefas específicas, o que representa uma limitação significativa, já que em muitas aplicações médicas os dados são escassos, exigindo modelos capazes de aprender com poucos exemplos em tempo real. Aqui, propomos o Med-Flamingo, um aprendiz multimodal de poucos exemplos adaptado ao domínio médico. Com base no OpenFlamingo-9B, continuamos o pré-treinamento com dados intercalados e pareados de imagens e textos médicos de publicações e livros didáticos. O Med-Flamingo desbloqueia habilidades generativas de resposta a perguntas visuais (VQA) médicas com poucos exemplos, que avaliamos em vários conjuntos de dados, incluindo um novo e desafiador conjunto de dados VQA de problemas abertos no estilo USMLE. Além disso, realizamos a primeira avaliação humana para VQA médica generativa, onde médicos revisam os problemas e gerações cegas em um aplicativo interativo. O Med-Flamingo melhora o desempenho em VQA médica generativa em até 20% na avaliação dos clínicos e, pela primeira vez, permite adaptações médicas multimodais com poucos exemplos, como a geração de justificativas. Disponibilizamos nosso modelo, código e aplicativo de avaliação em https://github.com/snap-stanford/med-flamingo.
English
Medicine, by its nature, is a multifaceted domain that requires the synthesis
of information across various modalities. Medical generative vision-language
models (VLMs) make a first step in this direction and promise many exciting
clinical applications. However, existing models typically have to be fine-tuned
on sizeable down-stream datasets, which poses a significant limitation as in
many medical applications data is scarce, necessitating models that are capable
of learning from few examples in real-time. Here we propose Med-Flamingo, a
multimodal few-shot learner adapted to the medical domain. Based on
OpenFlamingo-9B, we continue pre-training on paired and interleaved medical
image-text data from publications and textbooks. Med-Flamingo unlocks few-shot
generative medical visual question answering (VQA) abilities, which we evaluate
on several datasets including a novel challenging open-ended VQA dataset of
visual USMLE-style problems. Furthermore, we conduct the first human evaluation
for generative medical VQA where physicians review the problems and blinded
generations in an interactive app. Med-Flamingo improves performance in
generative medical VQA by up to 20\% in clinician's rating and firstly enables
multimodal medical few-shot adaptations, such as rationale generation. We
release our model, code, and evaluation app under
https://github.com/snap-stanford/med-flamingo.