LLaVA-Gemma: Acelerando Modelos de Fundação Multimodais com um Modelo de Linguagem Compacto
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model
March 29, 2024
Autores: Musashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal
cs.AI
Resumo
Treinamos uma suíte de modelos fundamentais multimodais (MMFM) utilizando o popular framework LLaVA com a família de grandes modelos de linguagem (LLMs) Gemma, recentemente lançada. De particular interesse é o modelo Gemma de 2B parâmetros, que oferece oportunidades para construir MMFMs pequenos, porém capazes. Alinhados com descobertas de outros trabalhos nessa área, testamos o efeito de remover três características de design: o pré-treinamento do conector, a utilização de um backbone de imagem mais poderoso e o aumento do tamanho do backbone de linguagem. Os modelos resultantes, que chamamos de LLaVA-Gemma, apresentam desempenho moderado em uma variedade de avaliações, mas não conseguem superar os modelos SOTA de tamanho comparável atuais. Uma análise mais detalhada do desempenho mostra efeitos mistos: pular o pré-treinamento tende a reduzir o desempenho, modelos de visão maiores às vezes melhoram o desempenho, e aumentar o tamanho do modelo de linguagem tem efeitos inconsistentes. Disponibilizamos publicamente as receitas de treinamento, código e pesos dos nossos modelos LLaVA-Gemma.
English
We train a suite of multimodal foundation models (MMFM) using the popular
LLaVA framework with the recently released Gemma family of large language
models (LLMs). Of particular interest is the 2B parameter Gemma model, which
provides opportunities to construct capable small-scale MMFMs. In line with
findings from other papers in this space, we test the effect of ablating three
design features: pretraining the connector, utilizing a more powerful image
backbone, and increasing the size of the language backbone. The resulting
models, which we call LLaVA-Gemma, exhibit moderate performance on an array of
evaluations, but fail to improve past the current comparably sized SOTA models.
Closer analysis of performance shows mixed effects; skipping pretraining tends
to reduce performance, larger vision models sometimes improve performance, and
increasing language model size has inconsistent effects. We publicly release
training recipes, code and weights for our models for the LLaVA-Gemma models.