ChatPaper.aiChatPaper

LLaVA-Gemma: Acelerando Modelos de Fundação Multimodais com um Modelo de Linguagem Compacto

LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

March 29, 2024
Autores: Musashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal
cs.AI

Resumo

Treinamos uma suíte de modelos fundamentais multimodais (MMFM) utilizando o popular framework LLaVA com a família de grandes modelos de linguagem (LLMs) Gemma, recentemente lançada. De particular interesse é o modelo Gemma de 2B parâmetros, que oferece oportunidades para construir MMFMs pequenos, porém capazes. Alinhados com descobertas de outros trabalhos nessa área, testamos o efeito de remover três características de design: o pré-treinamento do conector, a utilização de um backbone de imagem mais poderoso e o aumento do tamanho do backbone de linguagem. Os modelos resultantes, que chamamos de LLaVA-Gemma, apresentam desempenho moderado em uma variedade de avaliações, mas não conseguem superar os modelos SOTA de tamanho comparável atuais. Uma análise mais detalhada do desempenho mostra efeitos mistos: pular o pré-treinamento tende a reduzir o desempenho, modelos de visão maiores às vezes melhoram o desempenho, e aumentar o tamanho do modelo de linguagem tem efeitos inconsistentes. Disponibilizamos publicamente as receitas de treinamento, código e pesos dos nossos modelos LLaVA-Gemma.
English
We train a suite of multimodal foundation models (MMFM) using the popular LLaVA framework with the recently released Gemma family of large language models (LLMs). Of particular interest is the 2B parameter Gemma model, which provides opportunities to construct capable small-scale MMFMs. In line with findings from other papers in this space, we test the effect of ablating three design features: pretraining the connector, utilizing a more powerful image backbone, and increasing the size of the language backbone. The resulting models, which we call LLaVA-Gemma, exhibit moderate performance on an array of evaluations, but fail to improve past the current comparably sized SOTA models. Closer analysis of performance shows mixed effects; skipping pretraining tends to reduce performance, larger vision models sometimes improve performance, and increasing language model size has inconsistent effects. We publicly release training recipes, code and weights for our models for the LLaVA-Gemma models.
PDF272November 26, 2024