Moeten VLMs worden voorgetraind met beeldgegevens?
Should VLMs be Pre-trained with Image Data?
March 10, 2025
Auteurs: Sedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
cs.AI
Samenvatting
Voorgetrainde LLM's die verder worden getraind met beeldgegevens presteren goed op visie-taal taken. Hoewel het toevoegen van afbeeldingen tijdens een tweede trainingsfase deze mogelijkheid effectief ontsluit, is het onduidelijk hoeveel winst of verlies deze tweestaps pijplijn oplevert in vergelijking met VLM's die afbeeldingen eerder in het trainingsproces integreren. Om dit te onderzoeken, trainen we modellen over verschillende datasets, schalen, beeld-tekst verhoudingen en hoeveelheden voorafgaande training voordat visuele tokens worden geïntroduceerd. Vervolgens fine-tunen we deze modellen en evalueren we hun downstream prestaties op een reeks visie-taal en alleen-tekst taken. We ontdekken dat vooraf trainen met een mix van beeld- en tekstgegevens modellen in staat stelt beter te presteren op visie-taal taken terwijl ze sterke prestaties behouden op alleen-tekst evaluaties. Gemiddeld over 6 diverse taken, vinden we dat voor een 1B model, het introduceren van visuele tokens 80% van de weg door de voorafgaande training resulteert in een gemiddelde verbetering van 2% ten opzichte van het introduceren van visuele tokens in een volledig voorgetraind model.
English
Pre-trained LLMs that are further trained with image data perform well on
vision-language tasks. While adding images during a second training phase
effectively unlocks this capability, it is unclear how much of a gain or loss
this two-step pipeline gives over VLMs which integrate images earlier into the
training process. To investigate this, we train models spanning various
datasets, scales, image-text ratios, and amount of pre-training done before
introducing vision tokens. We then fine-tune these models and evaluate their
downstream performance on a suite of vision-language and text-only tasks. We
find that pre-training with a mixture of image and text data allows models to
perform better on vision-language tasks while maintaining strong performance on
text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B
model, introducing visual tokens 80% of the way through pre-training results in
a 2% average improvement over introducing visual tokens to a fully pre-trained
model.Summary
AI-Generated Summary