LLaVA-Med: Treinando um Assistente de Linguagem e Visão de Grande Escala para Biomedicina em um Dia
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
June 1, 2023
Autores: Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao
cs.AI
Resumo
A IA generativa conversacional tem demonstrado um potencial notável para capacitar profissionais biomédicos, mas as investigações atuais se concentram em texto unimodal. A IA conversacional multimodal tem progredido rapidamente ao aproveitar bilhões de pares imagem-texto da web pública, mas esses modelos de visão e linguagem de domínio geral ainda carecem de sofisticação na compreensão e conversação sobre imagens biomédicas. Neste artigo, propomos uma abordagem de baixo custo para treinar um assistente conversacional de visão e linguagem capaz de responder a perguntas de pesquisa abertas sobre imagens biomédicas. A ideia central é aproveitar um conjunto de dados em larga escala e de ampla cobertura de figuras e legendas biomédicas extraídas do PubMed Central, usar o GPT-4 para gerar automaticamente dados de instrução aberta a partir das legendas e, em seguida, ajustar um modelo de visão e linguagem de domínio geral usando um novo método de aprendizado curricular. Especificamente, o modelo primeiro aprende a alinhar o vocabulário biomédico usando os pares figura-legenda como estão, depois aprende a dominar a semântica conversacional aberta usando os dados de instrução gerados pelo GPT-4, imitando amplamente como um leigo adquire gradualmente conhecimento biomédico. Isso nos permite treinar um Assistente de Linguagem e Visão de Grande Escala para Biomedicina (LLaVA-Med) em menos de 15 horas (com oito GPUs A100). O LLaVA-Med exibe excelente capacidade conversacional multimodal e pode seguir instruções abertas para auxiliar em consultas sobre uma imagem biomédica. Em três conjuntos de dados padrão de resposta a perguntas visuais biomédicas, o LLaVA-Med supera os melhores modelos supervisionados anteriores em certas métricas. Para facilitar a pesquisa multimodal biomédica, disponibilizaremos nossos dados de instrução e o modelo LLaVA-Med.
English
Conversational generative AI has demonstrated remarkable promise for
empowering biomedical practitioners, but current investigations focus on
unimodal text. Multimodal conversational AI has seen rapid progress by
leveraging billions of image-text pairs from the public web, but such
general-domain vision-language models still lack sophistication in
understanding and conversing about biomedical images. In this paper, we propose
a cost-efficient approach for training a vision-language conversational
assistant that can answer open-ended research questions of biomedical images.
The key idea is to leverage a large-scale, broad-coverage biomedical
figure-caption dataset extracted from PubMed Central, use GPT-4 to
self-instruct open-ended instruction-following data from the captions, and then
fine-tune a large general-domain vision-language model using a novel curriculum
learning method. Specifically, the model first learns to align biomedical
vocabulary using the figure-caption pairs as is, then learns to master
open-ended conversational semantics using GPT-4 generated instruction-following
data, broadly mimicking how a layperson gradually acquires biomedical
knowledge. This enables us to train a Large Language and Vision Assistant for
BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med
exhibits excellent multimodal conversational capability and can follow
open-ended instruction to assist with inquiries about a biomedical image. On
three standard biomedical visual question answering datasets, LLaVA-Med
outperforms previous supervised state-of-the-art on certain metrics. To
facilitate biomedical multimodal research, we will release our
instruction-following data and the LLaVA-Med model.