Med-Flamingo: マルチモーダル医療用Few-shot学習モデル
Med-Flamingo: a Multimodal Medical Few-shot Learner
July 27, 2023
著者: Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
cs.AI
要旨
医学はその性質上、様々なモダリティにわたる情報の統合を必要とする多面的な領域です。医療生成型視覚言語モデル(VLMs)はこの方向への第一歩を踏み出し、多くのエキサイティングな臨床応用を約束します。しかし、既存のモデルは通常、大規模な下流データセットで微調整する必要があり、多くの医療応用ではデータが不足しているため、リアルタイムで少数の例から学習できるモデルが必要とされるという重大な制約があります。ここでは、医療領域に適応したマルチモーダル少数ショット学習モデルであるMed-Flamingoを提案します。OpenFlamingo-9Bを基盤として、出版物や教科書からのペアおよびインターリーブされた医療画像テキストデータで事前学習を継続します。Med-Flamingoは、少数ショット生成型医療視覚質問応答(VQA)能力を解き放ち、これらをいくつかのデータセットで評価します。これには、視覚的なUSMLEスタイルの問題からなる新たで挑戦的なオープンエンドVQAデータセットも含まれます。さらに、生成型医療VQAにおける初の人間評価を実施し、医師がインタラクティブアプリで問題とブラインド生成をレビューします。Med-Flamingoは、生成型医療VQAにおける臨床医の評価で最大20%の性能向上をもたらし、根拠生成などのマルチモーダル医療少数ショット適応を初めて可能にします。私たちは、モデル、コード、および評価アプリをhttps://github.com/snap-stanford/med-flamingoで公開します。
English
Medicine, by its nature, is a multifaceted domain that requires the synthesis
of information across various modalities. Medical generative vision-language
models (VLMs) make a first step in this direction and promise many exciting
clinical applications. However, existing models typically have to be fine-tuned
on sizeable down-stream datasets, which poses a significant limitation as in
many medical applications data is scarce, necessitating models that are capable
of learning from few examples in real-time. Here we propose Med-Flamingo, a
multimodal few-shot learner adapted to the medical domain. Based on
OpenFlamingo-9B, we continue pre-training on paired and interleaved medical
image-text data from publications and textbooks. Med-Flamingo unlocks few-shot
generative medical visual question answering (VQA) abilities, which we evaluate
on several datasets including a novel challenging open-ended VQA dataset of
visual USMLE-style problems. Furthermore, we conduct the first human evaluation
for generative medical VQA where physicians review the problems and blinded
generations in an interactive app. Med-Flamingo improves performance in
generative medical VQA by up to 20\% in clinician's rating and firstly enables
multimodal medical few-shot adaptations, such as rationale generation. We
release our model, code, and evaluation app under
https://github.com/snap-stanford/med-flamingo.