Med-Flamingo: een Multimodale Medische Few-shot Leerder

Samenvatting

Geneeskunde is van nature een veelzijdig domein dat de synthese van informatie over verschillende modaliteiten vereist. Medische generatieve vision-language modellen (VLMs) zetten een eerste stap in deze richting en beloven veel spannende klinische toepassingen. Bestaande modellen moeten echter doorgaans worden afgestemd op omvangrijke downstream datasets, wat een aanzienlijke beperking vormt, aangezien in veel medische toepassingen data schaars is. Dit vereist modellen die in staat zijn om in real-time te leren van weinig voorbeelden. Hier stellen we Med-Flamingo voor, een multimodale few-shot learner die is aangepast aan het medische domein. Gebaseerd op OpenFlamingo-9B, zetten we de voorafgaande training voort met gepaarde en interleaved medische beeld-tekst data uit publicaties en leerboeken. Med-Flamingo maakt few-shot generatieve medische visuele vraag-antwoord (VQA) mogelijkheden vrij, die we evalueren op verschillende datasets, waaronder een nieuwe uitdagende open-ended VQA dataset van visuele USMLE-stijl problemen. Bovendien voeren we de eerste menselijke evaluatie uit voor generatieve medische VQA, waarbij artsen de problemen en geblindeerde generaties beoordelen in een interactieve app. Med-Flamingo verbetert de prestaties in generatieve medische VQA met tot wel 20\% in de beoordeling van clinici en maakt voor het eerst multimodale medische few-shot aanpassingen mogelijk, zoals rationale generatie. We maken ons model, code en evaluatieapp beschikbaar op https://github.com/snap-stanford/med-flamingo.

English

Medicine, by its nature, is a multifaceted domain that requires the synthesis of information across various modalities. Medical generative vision-language models (VLMs) make a first step in this direction and promise many exciting clinical applications. However, existing models typically have to be fine-tuned on sizeable down-stream datasets, which poses a significant limitation as in many medical applications data is scarce, necessitating models that are capable of learning from few examples in real-time. Here we propose Med-Flamingo, a multimodal few-shot learner adapted to the medical domain. Based on OpenFlamingo-9B, we continue pre-training on paired and interleaved medical image-text data from publications and textbooks. Med-Flamingo unlocks few-shot generative medical visual question answering (VQA) abilities, which we evaluate on several datasets including a novel challenging open-ended VQA dataset of visual USMLE-style problems. Furthermore, we conduct the first human evaluation for generative medical VQA where physicians review the problems and blinded generations in an interactive app. Med-Flamingo improves performance in generative medical VQA by up to 20\% in clinician's rating and firstly enables multimodal medical few-shot adaptations, such as rationale generation. We release our model, code, and evaluation app under https://github.com/snap-stanford/med-flamingo.

Med-Flamingo: een Multimodale Medische Few-shot Leerder

Med-Flamingo: a Multimodal Medical Few-shot Learner

Samenvatting

Support