Med-Flamingo: Ein multimodaler medizinischer Few-Shot-Learner
Med-Flamingo: a Multimodal Medical Few-shot Learner
July 27, 2023
Autoren: Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
cs.AI
Zusammenfassung
Die Medizin ist von Natur aus ein vielschichtiges Gebiet, das die Synthese von Informationen aus verschiedenen Modalitäten erfordert. Medizinische generative Vision-Sprache-Modelle (VLMs) machen einen ersten Schritt in diese Richtung und versprechen viele spannende klinische Anwendungen. Allerdings müssen bestehende Modelle in der Regel auf umfangreichen Downstream-Datensätzen feinabgestimmt werden, was eine erhebliche Einschränkung darstellt, da in vielen medizinischen Anwendungen Daten knapp sind. Dies erfordert Modelle, die in der Lage sind, in Echtzeit aus wenigen Beispielen zu lernen. Hier schlagen wir Med-Flamingo vor, einen multimodalen Few-Shot-Lerner, der an den medizinischen Bereich angepasst ist. Basierend auf OpenFlamingo-9B führen wir ein weiteres Pre-Training auf gepaarten und verschachtelten medizinischen Bild-Text-Daten aus Publikationen und Lehrbüchern durch. Med-Flamingo ermöglicht Few-Shot-generative medizinische visuelle Frage-Antwort-Fähigkeiten (VQA), die wir anhand mehrerer Datensätze evaluieren, einschließlich eines neuartigen, herausfordernden offenen VQA-Datensatzes mit visuellen USMLE-ähnlichen Problemen. Darüber hinaus führen wir die erste menschliche Bewertung für generative medizinische VQA durch, bei der Ärzte die Probleme und blinden Generierungen in einer interaktiven App überprüfen. Med-Flamingo verbessert die Leistung bei der generativen medizinischen VQA um bis zu 20 % in der Bewertung der Kliniker und ermöglicht erstmals multimodale medizinische Few-Shot-Anpassungen, wie z. B. die Generierung von Begründungen. Wir veröffentlichen unser Modell, den Code und die Evaluierungs-App unter https://github.com/snap-stanford/med-flamingo.
English
Medicine, by its nature, is a multifaceted domain that requires the synthesis
of information across various modalities. Medical generative vision-language
models (VLMs) make a first step in this direction and promise many exciting
clinical applications. However, existing models typically have to be fine-tuned
on sizeable down-stream datasets, which poses a significant limitation as in
many medical applications data is scarce, necessitating models that are capable
of learning from few examples in real-time. Here we propose Med-Flamingo, a
multimodal few-shot learner adapted to the medical domain. Based on
OpenFlamingo-9B, we continue pre-training on paired and interleaved medical
image-text data from publications and textbooks. Med-Flamingo unlocks few-shot
generative medical visual question answering (VQA) abilities, which we evaluate
on several datasets including a novel challenging open-ended VQA dataset of
visual USMLE-style problems. Furthermore, we conduct the first human evaluation
for generative medical VQA where physicians review the problems and blinded
generations in an interactive app. Med-Flamingo improves performance in
generative medical VQA by up to 20\% in clinician's rating and firstly enables
multimodal medical few-shot adaptations, such as rationale generation. We
release our model, code, and evaluation app under
https://github.com/snap-stanford/med-flamingo.