ChatPaper.aiChatPaper

Med-Flamingo: многомодальная медицинская модель для обучения с малым количеством примеров

Med-Flamingo: a Multimodal Medical Few-shot Learner

July 27, 2023
Авторы: Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
cs.AI

Аннотация

Медицина, по своей природе, является многогранной областью, требующей синтеза информации из различных модальностей. Медицинские генеративные модели, объединяющие зрение и язык (VLMs), делают первый шаг в этом направлении и обещают множество захватывающих клинических применений. Однако существующие модели обычно требуют тонкой настройки на значительных наборах данных, что представляет собой существенное ограничение, поскольку во многих медицинских приложениях данные ограничены, что требует моделей, способных обучаться на малом количестве примеров в реальном времени. Здесь мы предлагаем Med-Flamingo, многомодальную модель, адаптированную для обучения на малом количестве примеров в медицинской области. Основываясь на OpenFlamingo-9B, мы продолжаем предварительное обучение на парных и чередующихся медицинских изображениях и текстах из публикаций и учебников. Med-Flamingo открывает возможности генеративного медицинского визуального ответа на вопросы (VQA) с малым количеством примеров, что мы оцениваем на нескольких наборах данных, включая новый сложный набор данных с открытыми вопросами в стиле USMLE. Кроме того, мы проводим первую оценку генеративного медицинского VQA с участием врачей, которые анализируют задачи и слепые генерации в интерактивном приложении. Med-Flamingo улучшает производительность в генеративном медицинском VQA до 20% по оценке клиницистов и впервые позволяет адаптировать многомодальные медицинские модели для обучения на малом количестве примеров, например, для генерации обоснований. Мы публикуем нашу модель, код и приложение для оценки по адресу https://github.com/snap-stanford/med-flamingo.
English
Medicine, by its nature, is a multifaceted domain that requires the synthesis of information across various modalities. Medical generative vision-language models (VLMs) make a first step in this direction and promise many exciting clinical applications. However, existing models typically have to be fine-tuned on sizeable down-stream datasets, which poses a significant limitation as in many medical applications data is scarce, necessitating models that are capable of learning from few examples in real-time. Here we propose Med-Flamingo, a multimodal few-shot learner adapted to the medical domain. Based on OpenFlamingo-9B, we continue pre-training on paired and interleaved medical image-text data from publications and textbooks. Med-Flamingo unlocks few-shot generative medical visual question answering (VQA) abilities, which we evaluate on several datasets including a novel challenging open-ended VQA dataset of visual USMLE-style problems. Furthermore, we conduct the first human evaluation for generative medical VQA where physicians review the problems and blinded generations in an interactive app. Med-Flamingo improves performance in generative medical VQA by up to 20\% in clinician's rating and firstly enables multimodal medical few-shot adaptations, such as rationale generation. We release our model, code, and evaluation app under https://github.com/snap-stanford/med-flamingo.
PDF231December 15, 2024