I VLM dovrebbero essere pre-addestrati con dati immagine?
Should VLMs be Pre-trained with Image Data?
March 10, 2025
Autori: Sedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
cs.AI
Abstract
I modelli linguistici pre-addestrati (LLM) che vengono ulteriormente addestrati con dati visivi ottengono buoni risultati nei compiti di visione e linguaggio. Sebbene l'aggiunta di immagini durante una seconda fase di addestramento sblocchi efficacemente questa capacità, non è chiaro quanto guadagno o perdita comporti questa pipeline in due fasi rispetto ai modelli di visione e linguaggio (VLM) che integrano le immagini in una fase precedente del processo di addestramento. Per indagare questo aspetto, addestriamo modelli su vari dataset, scale, rapporti immagine-testo e quantità di pre-addestramento effettuato prima di introdurre i token visivi. Successivamente, ottimizziamo questi modelli e valutiamo le loro prestazioni su una serie di compiti di visione e linguaggio e di soli testi. Scopriamo che il pre-addestramento con una miscela di dati visivi e testuali consente ai modelli di ottenere migliori risultati nei compiti di visione e linguaggio, mantenendo al contempo prestazioni solide nelle valutazioni di soli testi. In media su 6 compiti diversi, osserviamo che per un modello da 1 miliardo di parametri, l'introduzione di token visivi all'80% del pre-addestramento comporta un miglioramento medio del 2% rispetto all'introduzione di token visivi in un modello completamente pre-addestrato.
English
Pre-trained LLMs that are further trained with image data perform well on
vision-language tasks. While adding images during a second training phase
effectively unlocks this capability, it is unclear how much of a gain or loss
this two-step pipeline gives over VLMs which integrate images earlier into the
training process. To investigate this, we train models spanning various
datasets, scales, image-text ratios, and amount of pre-training done before
introducing vision tokens. We then fine-tune these models and evaluate their
downstream performance on a suite of vision-language and text-only tasks. We
find that pre-training with a mixture of image and text data allows models to
perform better on vision-language tasks while maintaining strong performance on
text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B
model, introducing visual tokens 80% of the way through pre-training results in
a 2% average improvement over introducing visual tokens to a fully pre-trained
model.Summary
AI-Generated Summary