ChatPaper.aiChatPaper

Med-Flamingo : un Apprenant Médical Multimodal en Peu d'Exemples

Med-Flamingo: a Multimodal Medical Few-shot Learner

July 27, 2023
Auteurs: Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
cs.AI

Résumé

La médecine, par sa nature, est un domaine multifacette qui nécessite la synthèse d'informations provenant de diverses modalités. Les modèles génératifs vision-langage (VLMs) médicaux constituent une première étape dans cette direction et promettent de nombreuses applications cliniques passionnantes. Cependant, les modèles existants doivent généralement être affinés sur des ensembles de données conséquents, ce qui représente une limitation significative car, dans de nombreuses applications médicales, les données sont rares, nécessitant des modèles capables d'apprendre à partir de peu d'exemples en temps réel. Nous proposons ici Med-Flamingo, un apprenant multimodal adapté au domaine médical et capable de fonctionner avec peu d'exemples. Basé sur OpenFlamingo-9B, nous poursuivons le pré-entraînement sur des données médicales associant images et textes, issues de publications et de manuels. Med-Flamingo débloque des capacités génératives de réponse à des questions visuelles médicales (VQA) avec peu d'exemples, que nous évaluons sur plusieurs ensembles de données, y compris un nouveau jeu de données VQA ouvert et exigeant de problèmes visuels de style USMLE. De plus, nous menons la première évaluation humaine pour la VQA générative médicale, où des médecins examinent les problèmes et les générations anonymisées dans une application interactive. Med-Flamingo améliore les performances en VQA générative médicale jusqu'à 20 % selon l'évaluation des cliniciens et permet pour la première fois des adaptations multimodales médicales avec peu d'exemples, telles que la génération de justifications. Nous publions notre modèle, notre code et notre application d'évaluation sous https://github.com/snap-stanford/med-flamingo.
English
Medicine, by its nature, is a multifaceted domain that requires the synthesis of information across various modalities. Medical generative vision-language models (VLMs) make a first step in this direction and promise many exciting clinical applications. However, existing models typically have to be fine-tuned on sizeable down-stream datasets, which poses a significant limitation as in many medical applications data is scarce, necessitating models that are capable of learning from few examples in real-time. Here we propose Med-Flamingo, a multimodal few-shot learner adapted to the medical domain. Based on OpenFlamingo-9B, we continue pre-training on paired and interleaved medical image-text data from publications and textbooks. Med-Flamingo unlocks few-shot generative medical visual question answering (VQA) abilities, which we evaluate on several datasets including a novel challenging open-ended VQA dataset of visual USMLE-style problems. Furthermore, we conduct the first human evaluation for generative medical VQA where physicians review the problems and blinded generations in an interactive app. Med-Flamingo improves performance in generative medical VQA by up to 20\% in clinician's rating and firstly enables multimodal medical few-shot adaptations, such as rationale generation. We release our model, code, and evaluation app under https://github.com/snap-stanford/med-flamingo.
PDF231December 15, 2024