LLaVA-Med: Treinando um Assistente de Linguagem e Visão de Grande Escala para Biomedicina em um Dia

Resumo

A IA generativa conversacional tem demonstrado um potencial notável para capacitar profissionais biomédicos, mas as investigações atuais se concentram em texto unimodal. A IA conversacional multimodal tem progredido rapidamente ao aproveitar bilhões de pares imagem-texto da web pública, mas esses modelos de visão e linguagem de domínio geral ainda carecem de sofisticação na compreensão e conversação sobre imagens biomédicas. Neste artigo, propomos uma abordagem de baixo custo para treinar um assistente conversacional de visão e linguagem capaz de responder a perguntas de pesquisa abertas sobre imagens biomédicas. A ideia central é aproveitar um conjunto de dados em larga escala e de ampla cobertura de figuras e legendas biomédicas extraídas do PubMed Central, usar o GPT-4 para gerar automaticamente dados de instrução aberta a partir das legendas e, em seguida, ajustar um modelo de visão e linguagem de domínio geral usando um novo método de aprendizado curricular. Especificamente, o modelo primeiro aprende a alinhar o vocabulário biomédico usando os pares figura-legenda como estão, depois aprende a dominar a semântica conversacional aberta usando os dados de instrução gerados pelo GPT-4, imitando amplamente como um leigo adquire gradualmente conhecimento biomédico. Isso nos permite treinar um Assistente de Linguagem e Visão de Grande Escala para Biomedicina (LLaVA-Med) em menos de 15 horas (com oito GPUs A100). O LLaVA-Med exibe excelente capacidade conversacional multimodal e pode seguir instruções abertas para auxiliar em consultas sobre uma imagem biomédica. Em três conjuntos de dados padrão de resposta a perguntas visuais biomédicas, o LLaVA-Med supera os melhores modelos supervisionados anteriores em certas métricas. Para facilitar a pesquisa multimodal biomédica, disponibilizaremos nossos dados de instrução e o modelo LLaVA-Med.

English

Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.

LLaVA-Med: Treinando um Assistente de Linguagem e Visão de Grande Escala para Biomedicina em um Dia

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Resumo

Support