LLaVA-Med: Het trainen van een grote taal-en-visie assistent voor biomedische toepassingen in één dag

Samenvatting

Conversationele generatieve AI heeft opmerkelijke belofte getoond voor het empoweren van biomedische professionals, maar huidige onderzoeken richten zich op unimodale tekst. Multimodale conversationele AI heeft snelle vooruitgang geboekt door gebruik te maken van miljarden afbeelding-tekstparen van het openbare web, maar dergelijke algemene domein visie-taalmodellen missen nog steeds de verfijning in het begrijpen en converseren over biomedische afbeeldingen. In dit artikel stellen we een kostenefficiënte aanpak voor om een visie-taal conversationele assistent te trainen die open onderzoeksvragen over biomedische afbeeldingen kan beantwoorden. Het kernidee is om gebruik te maken van een grootschalige, breedgedekte biomedische figuur-bijschrift dataset geëxtraheerd uit PubMed Central, GPT-4 te gebruiken om zelfinstructie open instructie-volgende data uit de bijschriften te genereren, en vervolgens een groot algemeen domein visie-taalmodel te fine-tunen met behulp van een nieuwe curriculumleermethode. Specifiek leert het model eerst biomedische vocabulaire af te stemmen met behulp van de figuur-bijschriftparen zoals ze zijn, en leert vervolgens open conversationele semantiek te beheersen met behulp van GPT-4 gegenereerde instructie-volgende data, wat grofweg nabootst hoe een leek geleidelijk biomedische kennis verwerft. Dit stelt ons in staat om een Large Language and Vision Assistant for BioMedicine (LLaVA-Med) te trainen in minder dan 15 uur (met acht A100's). LLaVA-Med vertoont uitstekende multimodale conversationele capaciteiten en kan open instructies volgen om te assisteren bij vragen over een biomedische afbeelding. Op drie standaard biomedische visuele vraag-antwoord datasets presteert LLaVA-Med beter dan eerder gesuperviseerde state-of-the-art op bepaalde metrieken. Om biomedisch multimodaal onderzoek te faciliteren, zullen we onze instructie-volgende data en het LLaVA-Med model vrijgeven.

English

Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.

LLaVA-Med: Het trainen van een grote taal-en-visie assistent voor biomedische toepassingen in één dag

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Samenvatting

Support