ChatPaper.aiChatPaper

Os VLMs devem ser pré-treinados com dados de imagem?

Should VLMs be Pre-trained with Image Data?

March 10, 2025
Autores: Sedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
cs.AI

Resumo

Modelos de linguagem pré-treinados (LLMs) que são posteriormente treinados com dados de imagem apresentam bom desempenho em tarefas de visão e linguagem. Embora a adição de imagens durante uma segunda fase de treinamento desbloqueie efetivamente essa capacidade, não está claro quanto ganho ou perda esse pipeline de duas etapas oferece em comparação com modelos de linguagem visual (VLMs) que integram imagens mais cedo no processo de treinamento. Para investigar isso, treinamos modelos que abrangem diversos conjuntos de dados, escalas, proporções de imagem-texto e quantidade de pré-treinamento realizada antes da introdução de tokens visuais. Em seguida, ajustamos finamente esses modelos e avaliamos seu desempenho em uma série de tarefas de visão e linguagem e tarefas exclusivamente textuais. Descobrimos que o pré-treinamento com uma mistura de dados de imagem e texto permite que os modelos tenham um desempenho melhor em tarefas de visão e linguagem, mantendo um forte desempenho em avaliações exclusivamente textuais. Em uma média de 6 tarefas diversas, observamos que, para um modelo de 1B, a introdução de tokens visuais a 80% do caminho do pré-treinamento resulta em uma melhoria média de 2% em comparação com a introdução de tokens visuais em um modelo totalmente pré-treinado.
English
Pre-trained LLMs that are further trained with image data perform well on vision-language tasks. While adding images during a second training phase effectively unlocks this capability, it is unclear how much of a gain or loss this two-step pipeline gives over VLMs which integrate images earlier into the training process. To investigate this, we train models spanning various datasets, scales, image-text ratios, and amount of pre-training done before introducing vision tokens. We then fine-tune these models and evaluate their downstream performance on a suite of vision-language and text-only tasks. We find that pre-training with a mixture of image and text data allows models to perform better on vision-language tasks while maintaining strong performance on text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B model, introducing visual tokens 80% of the way through pre-training results in a 2% average improvement over introducing visual tokens to a fully pre-trained model.

Summary

AI-Generated Summary

PDF31March 11, 2025