ChatPaper.aiChatPaper

LLaVA-Med: Обучение крупного языково-визуального ассистента для биомедицины за один день

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

June 1, 2023
Авторы: Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao
cs.AI

Аннотация

Генеративный ИИ для диалогов продемонстрировал значительный потенциал в поддержке специалистов в биомедицине, однако текущие исследования сосредоточены исключительно на текстовых данных. Мультимодальный диалоговый ИИ быстро развивается благодаря использованию миллиардов пар изображений и текстов из открытого интернета, но такие модели общего назначения для обработки визуальных и языковых данных всё ещё недостаточно эффективны в понимании и обсуждении биомедицинских изображений. В данной статье мы предлагаем экономичный подход для обучения визуально-языкового диалогового помощника, способного отвечать на открытые исследовательские вопросы о биомедицинских изображениях. Основная идея заключается в использовании крупномасштабного набора данных с широким охватом, включающего изображения и подписи из PubMed Central, генерации данных для обучения следованию инструкциям с помощью GPT-4 на основе этих подписей и последующей тонкой настройки модели общего назначения с использованием нового метода обучения по учебному плану. В частности, модель сначала учится сопоставлять биомедицинскую терминологию с использованием пар изображений и подписей, а затем осваивает семантику открытых диалогов с использованием данных, сгенерированных GPT-4, что в целом имитирует процесс постепенного освоения биомедицинских знаний непрофессионалом. Это позволяет нам обучить крупную языковую и визуальную модель для биомедицины (LLaVA-Med) менее чем за 15 часов (с использованием восьми GPU A100). LLaVA-Med демонстрирует превосходные мультимодальные диалоговые способности и может следовать открытым инструкциям для помощи в анализе биомедицинских изображений. На трёх стандартных наборах данных для визуального ответа на вопросы в биомедицине LLaVA-Med превосходит предыдущие контролируемые модели по некоторым метрикам. Для содействия исследованиям в области мультимодальной биомедицины мы опубликуем наши данные для обучения следованию инструкциям и модель LLaVA-Med.
English
Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.
PDF111December 15, 2024