O que importa ao construir modelos visão-linguagem?
What matters when building vision-language models?
May 3, 2024
Autores: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI
Resumo
O crescente interesse em modelos de visão e linguagem (VLMs) tem sido impulsionado por avanços em grandes modelos de linguagem e transformadores de visão. Apesar da abundância de literatura sobre o tema, observamos que decisões críticas relacionadas ao design de VLMs frequentemente não são justificadas. Argumentamos que essas decisões não fundamentadas dificultam o progresso na área, tornando desafiador identificar quais escolhas melhoram o desempenho dos modelos. Para abordar essa questão, conduzimos extensos experimentos em torno de modelos pré-treinados, escolha de arquitetura, dados e métodos de treinamento. Nossa consolidação de descobertas inclui o desenvolvimento do Idefics2, um modelo VLM fundamental eficiente com 8 bilhões de parâmetros. O Idefics2 alcança desempenho de ponta em sua categoria de tamanho em diversos benchmarks multimodais, muitas vezes equiparando-se a modelos quatro vezes maiores. Disponibilizamos o modelo (base, instruído e de chat) juntamente com os conjuntos de dados criados para seu treinamento.
English
The growing interest in vision-language models (VLMs) has been driven by
improvements in large language models and vision transformers. Despite the
abundance of literature on this subject, we observe that critical decisions
regarding the design of VLMs are often not justified. We argue that these
unsupported decisions impede progress in the field by making it difficult to
identify which choices improve model performance. To address this issue, we
conduct extensive experiments around pre-trained models, architecture choice,
data, and training methods. Our consolidation of findings includes the
development of Idefics2, an efficient foundational VLM of 8 billion parameters.
Idefics2 achieves state-of-the-art performance within its size category across
various multimodal benchmarks, and is often on par with models four times its
size. We release the model (base, instructed, and chat) along with the datasets
created for its training.