LLaVA-Med: Het trainen van een grote taal-en-visie assistent voor biomedische toepassingen in één dag
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
June 1, 2023
Auteurs: Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao
cs.AI
Samenvatting
Conversationele generatieve AI heeft opmerkelijke belofte getoond voor het empoweren van biomedische professionals, maar huidige onderzoeken richten zich op unimodale tekst. Multimodale conversationele AI heeft snelle vooruitgang geboekt door gebruik te maken van miljarden afbeelding-tekstparen van het openbare web, maar dergelijke algemene domein visie-taalmodellen missen nog steeds de verfijning in het begrijpen en converseren over biomedische afbeeldingen. In dit artikel stellen we een kostenefficiënte aanpak voor om een visie-taal conversationele assistent te trainen die open onderzoeksvragen over biomedische afbeeldingen kan beantwoorden. Het kernidee is om gebruik te maken van een grootschalige, breedgedekte biomedische figuur-bijschrift dataset geëxtraheerd uit PubMed Central, GPT-4 te gebruiken om zelfinstructie open instructie-volgende data uit de bijschriften te genereren, en vervolgens een groot algemeen domein visie-taalmodel te fine-tunen met behulp van een nieuwe curriculumleermethode. Specifiek leert het model eerst biomedische vocabulaire af te stemmen met behulp van de figuur-bijschriftparen zoals ze zijn, en leert vervolgens open conversationele semantiek te beheersen met behulp van GPT-4 gegenereerde instructie-volgende data, wat grofweg nabootst hoe een leek geleidelijk biomedische kennis verwerft. Dit stelt ons in staat om een Large Language and Vision Assistant for BioMedicine (LLaVA-Med) te trainen in minder dan 15 uur (met acht A100's). LLaVA-Med vertoont uitstekende multimodale conversationele capaciteiten en kan open instructies volgen om te assisteren bij vragen over een biomedische afbeelding. Op drie standaard biomedische visuele vraag-antwoord datasets presteert LLaVA-Med beter dan eerder gesuperviseerde state-of-the-art op bepaalde metrieken. Om biomedisch multimodaal onderzoek te faciliteren, zullen we onze instructie-volgende data en het LLaVA-Med model vrijgeven.
English
Conversational generative AI has demonstrated remarkable promise for
empowering biomedical practitioners, but current investigations focus on
unimodal text. Multimodal conversational AI has seen rapid progress by
leveraging billions of image-text pairs from the public web, but such
general-domain vision-language models still lack sophistication in
understanding and conversing about biomedical images. In this paper, we propose
a cost-efficient approach for training a vision-language conversational
assistant that can answer open-ended research questions of biomedical images.
The key idea is to leverage a large-scale, broad-coverage biomedical
figure-caption dataset extracted from PubMed Central, use GPT-4 to
self-instruct open-ended instruction-following data from the captions, and then
fine-tune a large general-domain vision-language model using a novel curriculum
learning method. Specifically, the model first learns to align biomedical
vocabulary using the figure-caption pairs as is, then learns to master
open-ended conversational semantics using GPT-4 generated instruction-following
data, broadly mimicking how a layperson gradually acquires biomedical
knowledge. This enables us to train a Large Language and Vision Assistant for
BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med
exhibits excellent multimodal conversational capability and can follow
open-ended instruction to assist with inquiries about a biomedical image. On
three standard biomedical visual question answering datasets, LLaVA-Med
outperforms previous supervised state-of-the-art on certain metrics. To
facilitate biomedical multimodal research, we will release our
instruction-following data and the LLaVA-Med model.