ChatPaper.aiChatPaper

LLaVA-Med: Entrenamiento de un Asistente de Lenguaje y Visión a Gran Escala para Biomedicina en un Día

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

June 1, 2023
Autores: Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao
cs.AI

Resumen

La IA generativa conversacional ha demostrado un potencial notable para empoderar a los profesionales biomédicos, pero las investigaciones actuales se centran en texto unimodal. La IA conversacional multimodal ha experimentado un rápido progreso al aprovechar miles de millones de pares de imagen-texto de la web pública, pero estos modelos generales de visión y lenguaje aún carecen de sofisticación para comprender y conversar sobre imágenes biomédicas. En este artículo, proponemos un enfoque rentable para entrenar un asistente conversacional de visión y lenguaje que pueda responder preguntas de investigación abiertas sobre imágenes biomédicas. La idea clave es aprovechar un conjunto de datos a gran escala y de amplia cobertura de figuras y leyendas biomédicas extraídas de PubMed Central, utilizar GPT-4 para auto-instruir datos de seguimiento de instrucciones abiertas a partir de las leyendas, y luego ajustar un modelo general de visión y lenguaje utilizando un novedoso método de aprendizaje curricular. Específicamente, el modelo primero aprende a alinear el vocabulario biomédico utilizando los pares de figura-leyenda tal cual, luego aprende a dominar la semántica conversacional abierta utilizando datos de seguimiento de instrucciones generados por GPT-4, imitando ampliamente cómo una persona sin conocimientos especializados adquiere gradualmente conocimiento biomédico. Esto nos permite entrenar un Asistente de Lenguaje y Visión a Gran Escala para Biomedicina (LLaVA-Med) en menos de 15 horas (con ocho A100). LLaVA-Med exhibe una excelente capacidad conversacional multimodal y puede seguir instrucciones abiertas para asistir en consultas sobre una imagen biomédica. En tres conjuntos de datos estándar de respuesta a preguntas visuales biomédicas, LLaVA-Med supera a los anteriores modelos supervisados de última generación en ciertas métricas. Para facilitar la investigación multimodal en biomedicina, liberaremos nuestros datos de seguimiento de instrucciones y el modelo LLaVA-Med.
English
Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.
PDF111December 15, 2024