Med-Flamingo: un Modello Multimodale per l'Apprendimento Few-shot in Ambito Medico
Med-Flamingo: a Multimodal Medical Few-shot Learner
July 27, 2023
Autori: Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
cs.AI
Abstract
La medicina, per sua natura, è un dominio multisfaccettato che richiede la sintesi di informazioni provenienti da varie modalità. I modelli generativi visione-linguaggio (VLMs) in ambito medico rappresentano un primo passo in questa direzione e promettono molteplici applicazioni cliniche entusiasmanti. Tuttavia, i modelli esistenti tipicamente devono essere sottoposti a fine-tuning su dataset di dimensioni considerevoli, il che rappresenta una limitazione significativa poiché in molte applicazioni mediche i dati sono scarsi, rendendo necessari modelli in grado di apprendere da pochi esempi in tempo reale. Qui proponiamo Med-Flamingo, un apprendista multimodale few-shot adattato al dominio medico. Basato su OpenFlamingo-9B, continuiamo il pre-addestramento su dati accoppiati e intercalati di immagini e testi medici provenienti da pubblicazioni e libri di testo. Med-Flamingo sblocca capacità generative few-shot di risposta a domande visive (VQA) in ambito medico, che valutiamo su diversi dataset, inclusa una nuova e impegnativa raccolta di problemi aperti di tipo USMLE. Inoltre, conduciamo la prima valutazione umana per VQA generativa in ambito medico, in cui i medici esaminano i problemi e le generazioni in cieco attraverso un'app interattiva. Med-Flamingo migliora le prestazioni nella VQA generativa medica fino al 20% nelle valutazioni dei clinici e abilita per la prima volta adattamenti few-shot multimodali in ambito medico, come la generazione di razionali. Rilasciamo il nostro modello, il codice e l'app di valutazione su https://github.com/snap-stanford/med-flamingo.
English
Medicine, by its nature, is a multifaceted domain that requires the synthesis
of information across various modalities. Medical generative vision-language
models (VLMs) make a first step in this direction and promise many exciting
clinical applications. However, existing models typically have to be fine-tuned
on sizeable down-stream datasets, which poses a significant limitation as in
many medical applications data is scarce, necessitating models that are capable
of learning from few examples in real-time. Here we propose Med-Flamingo, a
multimodal few-shot learner adapted to the medical domain. Based on
OpenFlamingo-9B, we continue pre-training on paired and interleaved medical
image-text data from publications and textbooks. Med-Flamingo unlocks few-shot
generative medical visual question answering (VQA) abilities, which we evaluate
on several datasets including a novel challenging open-ended VQA dataset of
visual USMLE-style problems. Furthermore, we conduct the first human evaluation
for generative medical VQA where physicians review the problems and blinded
generations in an interactive app. Med-Flamingo improves performance in
generative medical VQA by up to 20\% in clinician's rating and firstly enables
multimodal medical few-shot adaptations, such as rationale generation. We
release our model, code, and evaluation app under
https://github.com/snap-stanford/med-flamingo.