LLaVA-Med : Entraînement d'un Assistant Langage et Vision de Grande Taille pour la Biomédecine en un Jour
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
June 1, 2023
Auteurs: Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao
cs.AI
Résumé
L'IA générative conversationnelle a démontré un potentiel remarquable pour renforcer les capacités des praticiens biomédicaux, mais les recherches actuelles se concentrent sur le texte unimodal. L'IA conversationnelle multimodale a connu des progrès rapides en exploitant des milliards de paires image-texte provenant du web public, mais ces modèles vision-langage de domaine général manquent encore de sophistication pour comprendre et discuter des images biomédicales. Dans cet article, nous proposons une approche rentable pour entraîner un assistant conversationnel vision-langage capable de répondre à des questions de recherche ouvertes sur des images biomédicales. L'idée clé est d'exploiter un jeu de données à grande échelle et à large couverture de figures-légendes biomédicales extraites de PubMed Central, d'utiliser GPT-4 pour auto-générer des données d'instructions ouvertes à partir des légendes, puis de fine-tuner un modèle vision-langage de domaine général en utilisant une nouvelle méthode d'apprentissage curriculaire. Concrètement, le modèle apprend d'abord à aligner le vocabulaire biomédical en utilisant les paires figure-légende telles quelles, puis maîtrise la sémantique conversationnelle ouverte grâce aux données d'instructions générées par GPT-4, imitant ainsi la manière dont un profane acquiert progressivement des connaissances biomédicales. Cela nous permet d'entraîner un Assistant Langage et Vision à Grande Échelle pour la Biomédecine (LLaVA-Med) en moins de 15 heures (avec huit A100). LLaVA-Med présente d'excellentes capacités conversationnelles multimodales et peut suivre des instructions ouvertes pour aider à répondre à des questions sur une image biomédicale. Sur trois jeux de données standard de question-réponse visuelle biomédicale, LLaVA-Med surpasse les précédents modèles supervisés de pointe sur certaines métriques. Pour faciliter la recherche multimodale en biomédecine, nous publierons nos données d'instructions et le modèle LLaVA-Med.
English
Conversational generative AI has demonstrated remarkable promise for
empowering biomedical practitioners, but current investigations focus on
unimodal text. Multimodal conversational AI has seen rapid progress by
leveraging billions of image-text pairs from the public web, but such
general-domain vision-language models still lack sophistication in
understanding and conversing about biomedical images. In this paper, we propose
a cost-efficient approach for training a vision-language conversational
assistant that can answer open-ended research questions of biomedical images.
The key idea is to leverage a large-scale, broad-coverage biomedical
figure-caption dataset extracted from PubMed Central, use GPT-4 to
self-instruct open-ended instruction-following data from the captions, and then
fine-tune a large general-domain vision-language model using a novel curriculum
learning method. Specifically, the model first learns to align biomedical
vocabulary using the figure-caption pairs as is, then learns to master
open-ended conversational semantics using GPT-4 generated instruction-following
data, broadly mimicking how a layperson gradually acquires biomedical
knowledge. This enables us to train a Large Language and Vision Assistant for
BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med
exhibits excellent multimodal conversational capability and can follow
open-ended instruction to assist with inquiries about a biomedical image. On
three standard biomedical visual question answering datasets, LLaVA-Med
outperforms previous supervised state-of-the-art on certain metrics. To
facilitate biomedical multimodal research, we will release our
instruction-following data and the LLaVA-Med model.