ChatPaper.aiChatPaper

Les modèles de vision et langage (VLMs) devraient-ils être pré-entraînés avec des données d'image ?

Should VLMs be Pre-trained with Image Data?

March 10, 2025
Auteurs: Sedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
cs.AI

Résumé

Les grands modèles de langage (LLM) pré-entraînés qui sont ensuite entraînés avec des données visuelles obtiennent de bons résultats sur les tâches vision-langage. Bien que l'ajout d'images lors d'une deuxième phase d'entraînement débloque efficacement cette capacité, il reste incertain de savoir quel gain ou perte ce pipeline en deux étapes apporte par rapport aux modèles vision-langage (VLM) qui intègrent les images plus tôt dans le processus d'entraînement. Pour étudier cela, nous entraînons des modèles sur divers ensembles de données, échelles, ratios image-texte et quantités de pré-entraînement effectuées avant l'introduction de tokens visuels. Nous affinons ensuite ces modèles et évaluons leurs performances en aval sur une série de tâches vision-langage et de tâches textuelles uniquement. Nous constatons qu'un pré-entraînement avec un mélange de données visuelles et textuelles permet aux modèles de mieux performer sur les tâches vision-langage tout en maintenant de solides performances sur les évaluations textuelles uniquement. Sur une moyenne de 6 tâches diverses, nous observons que pour un modèle de 1 milliard de paramètres, l'introduction de tokens visuels à 80 % du pré-entraînement entraîne une amélioration moyenne de 2 % par rapport à l'introduction de tokens visuels dans un modèle entièrement pré-entraîné.
English
Pre-trained LLMs that are further trained with image data perform well on vision-language tasks. While adding images during a second training phase effectively unlocks this capability, it is unclear how much of a gain or loss this two-step pipeline gives over VLMs which integrate images earlier into the training process. To investigate this, we train models spanning various datasets, scales, image-text ratios, and amount of pre-training done before introducing vision tokens. We then fine-tune these models and evaluate their downstream performance on a suite of vision-language and text-only tasks. We find that pre-training with a mixture of image and text data allows models to perform better on vision-language tasks while maintaining strong performance on text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B model, introducing visual tokens 80% of the way through pre-training results in a 2% average improvement over introducing visual tokens to a fully pre-trained model.

Summary

AI-Generated Summary

PDF31March 11, 2025