ChatPaper.aiChatPaper

LLaVA-Gemma: Beschleunigung von Multimodal Foundation Models mit einem kompakten Sprachmodell

LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

March 29, 2024
Autoren: Musashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal
cs.AI

Zusammenfassung

Wir trainieren eine Reihe von multimodalen Grundlagenmodellen (MMFM) unter Verwendung des beliebten LLaVA-Frameworks mit der kürzlich veröffentlichten Gemma-Familie großer Sprachmodelle (LLMs). Besonderes Interesse gilt dem 2B-Parameter-Gemma-Modell, das Möglichkeiten bietet, leistungsfähige kleinere MMFMs zu konstruieren. Im Einklang mit Erkenntnissen aus anderen Arbeiten in diesem Bereich testen wir die Auswirkung der Entfernung von drei Designmerkmalen: Vortraining des Verbinders, Verwendung eines leistungsstärkeren Bildrückgrats und Erhöhung der Größe des Sprachrückgrats. Die resultierenden Modelle, die wir LLaVA-Gemma nennen, zeigen eine moderate Leistung bei einer Vielzahl von Bewertungen, können jedoch die aktuellen vergleichbar großen SOTA-Modelle nicht übertreffen. Eine genauere Analyse der Leistung zeigt gemischte Effekte; das Überspringen des Vortrainings neigt dazu, die Leistung zu verringern, größere Vision-Modelle verbessern manchmal die Leistung, und die Erhöhung der Größe des Sprachmodells hat inkonsistente Effekte. Wir veröffentlichen öffentlich Trainingsrezepte, Code und Gewichte für unsere Modelle für die LLaVA-Gemma-Modelle.
English
We train a suite of multimodal foundation models (MMFM) using the popular LLaVA framework with the recently released Gemma family of large language models (LLMs). Of particular interest is the 2B parameter Gemma model, which provides opportunities to construct capable small-scale MMFMs. In line with findings from other papers in this space, we test the effect of ablating three design features: pretraining the connector, utilizing a more powerful image backbone, and increasing the size of the language backbone. The resulting models, which we call LLaVA-Gemma, exhibit moderate performance on an array of evaluations, but fail to improve past the current comparably sized SOTA models. Closer analysis of performance shows mixed effects; skipping pretraining tends to reduce performance, larger vision models sometimes improve performance, and increasing language model size has inconsistent effects. We publicly release training recipes, code and weights for our models for the LLaVA-Gemma models.

Summary

AI-Generated Summary

PDF282November 26, 2024