LLaVA-Med: Addestramento di un Assistente Multimodale Linguaggio-Visione di Grandi Dimensioni per la Biomedicina in un Solo Giorno

Abstract

L'IA generativa conversazionale ha dimostrato un notevole potenziale nel potenziare i professionisti biomedici, ma le attuali indagini si concentrano su testi unimodali. L'IA conversazionale multimodale ha fatto rapidi progressi sfruttando miliardi di coppie immagine-testo dal web pubblico, ma tali modelli visione-linguaggio di dominio generale mancano ancora di sofisticazione nella comprensione e nella conversazione riguardo alle immagini biomediche. In questo articolo, proponiamo un approccio efficiente in termini di costi per addestrare un assistente conversazionale visione-linguaggio in grado di rispondere a domande di ricerca aperte su immagini biomediche. L'idea chiave è sfruttare un ampio dataset biomedico di figure-didascalie estratto da PubMed Central, utilizzare GPT-4 per auto-istruire dati di istruzione aperta dalle didascalie, e poi affinare un modello visione-linguaggio di dominio generale utilizzando un nuovo metodo di apprendimento curriculare. Specificamente, il modello impara prima ad allineare il vocabolario biomedico utilizzando le coppie figura-didascalia così come sono, poi impara a padroneggiare la semantica conversazionale aperta utilizzando i dati di istruzione generati da GPT-4, imitando in modo ampio come una persona comune acquisisce gradualmente conoscenze biomediche. Questo ci permette di addestrare un Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in meno di 15 ore (con otto A100). LLaVA-Med mostra un'eccellente capacità conversazionale multimodale e può seguire istruzioni aperte per assistere con le richieste su un'immagine biomedica. Su tre dataset standard di risposta a domande visive biomediche, LLaVA-Med supera i precedenti stati dell'arte supervisionati su alcune metriche. Per facilitare la ricerca multimodale biomedica, rilasceremo i nostri dati di istruzione e il modello LLaVA-Med.

English

Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.

LLaVA-Med: Addestramento di un Assistente Multimodale Linguaggio-Visione di Grandi Dimensioni per la Biomedicina in un Solo Giorno

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Abstract

Support