Med-Flamingo: un Modello Multimodale per l'Apprendimento Few-shot in Ambito Medico

Abstract

La medicina, per sua natura, è un dominio multisfaccettato che richiede la sintesi di informazioni provenienti da varie modalità. I modelli generativi visione-linguaggio (VLMs) in ambito medico rappresentano un primo passo in questa direzione e promettono molteplici applicazioni cliniche entusiasmanti. Tuttavia, i modelli esistenti tipicamente devono essere sottoposti a fine-tuning su dataset di dimensioni considerevoli, il che rappresenta una limitazione significativa poiché in molte applicazioni mediche i dati sono scarsi, rendendo necessari modelli in grado di apprendere da pochi esempi in tempo reale. Qui proponiamo Med-Flamingo, un apprendista multimodale few-shot adattato al dominio medico. Basato su OpenFlamingo-9B, continuiamo il pre-addestramento su dati accoppiati e intercalati di immagini e testi medici provenienti da pubblicazioni e libri di testo. Med-Flamingo sblocca capacità generative few-shot di risposta a domande visive (VQA) in ambito medico, che valutiamo su diversi dataset, inclusa una nuova e impegnativa raccolta di problemi aperti di tipo USMLE. Inoltre, conduciamo la prima valutazione umana per VQA generativa in ambito medico, in cui i medici esaminano i problemi e le generazioni in cieco attraverso un'app interattiva. Med-Flamingo migliora le prestazioni nella VQA generativa medica fino al 20% nelle valutazioni dei clinici e abilita per la prima volta adattamenti few-shot multimodali in ambito medico, come la generazione di razionali. Rilasciamo il nostro modello, il codice e l'app di valutazione su https://github.com/snap-stanford/med-flamingo.

English

Medicine, by its nature, is a multifaceted domain that requires the synthesis of information across various modalities. Medical generative vision-language models (VLMs) make a first step in this direction and promise many exciting clinical applications. However, existing models typically have to be fine-tuned on sizeable down-stream datasets, which poses a significant limitation as in many medical applications data is scarce, necessitating models that are capable of learning from few examples in real-time. Here we propose Med-Flamingo, a multimodal few-shot learner adapted to the medical domain. Based on OpenFlamingo-9B, we continue pre-training on paired and interleaved medical image-text data from publications and textbooks. Med-Flamingo unlocks few-shot generative medical visual question answering (VQA) abilities, which we evaluate on several datasets including a novel challenging open-ended VQA dataset of visual USMLE-style problems. Furthermore, we conduct the first human evaluation for generative medical VQA where physicians review the problems and blinded generations in an interactive app. Med-Flamingo improves performance in generative medical VQA by up to 20\% in clinician's rating and firstly enables multimodal medical few-shot adaptations, such as rationale generation. We release our model, code, and evaluation app under https://github.com/snap-stanford/med-flamingo.

Med-Flamingo: un Modello Multimodale per l'Apprendimento Few-shot in Ambito Medico

Med-Flamingo: a Multimodal Medical Few-shot Learner

Abstract

Support