ChatPaper.aiChatPaper

LLaVA-Med: Training eines großen Sprach- und Bildassistenten für die Biomedizin an einem Tag

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

June 1, 2023
Autoren: Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao
cs.AI

Zusammenfassung

Konversationelle generative KI hat bemerkenswertes Potenzial gezeigt, um biomedizinische Fachkräfte zu unterstützen, doch konzentrieren sich aktuelle Untersuchungen auf unimodalen Text. Multimodale konversationelle KI hat durch die Nutzung von Milliarden von Bild-Text-Paaren aus dem öffentlichen Web rasche Fortschritte gemacht, doch solchen allgemeinen Vision-Sprache-Modellen fehlt es noch an Raffinesse im Verständnis und in der Konversation über biomedizinische Bilder. In diesem Artikel schlagen wir einen kosteneffizienten Ansatz vor, um einen Vision-Sprache-Konversationsassistenten zu trainieren, der offene Forschungsfragen zu biomedizinischen Bildern beantworten kann. Die zentrale Idee besteht darin, einen groß angelegten, breit gefächerten biomedizinischen Bild-Beschreibungs-Datensatz aus PubMed Central zu nutzen, GPT-4 zur Selbstinstruktion offener befehlsfolgender Daten aus den Beschreibungen zu verwenden und dann ein großes allgemeines Vision-Sprache-Modell mit einer neuartigen Curriculum-Learning-Methode zu feintunen. Konkret lernt das Modell zunächst, biomedizinische Begriffe anhand der Bild-Beschreibungs-Paare auszurichten, und beherrscht dann offene konversationelle Semantik mithilfe der von GPT-4 generierten befehlsfolgenden Daten, was grob dem Prozess ähnelt, wie ein Laie schrittweise biomedizinisches Wissen erwirbt. Dies ermöglicht es uns, einen großen Sprach- und Vision-Assistenten für die Biomedizin (LLaVA-Med) in weniger als 15 Stunden (mit acht A100s) zu trainieren. LLaVA-Med zeigt hervorragende multimodale Konversationsfähigkeiten und kann offene Anweisungen befolgen, um Anfragen zu einem biomedizinischen Bild zu unterstützen. Auf drei standardisierten biomedizinischen visuellen Frage-Antwort-Datensätzen übertrifft LLaVA-Med in bestimmten Metriken den bisherigen überwachten State-of-the-Art. Um die biomedizinische multimodale Forschung zu fördern, werden wir unsere befehlsfolgenden Daten und das LLaVA-Med-Modell veröffentlichen.
English
Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.
PDF111December 15, 2024