I VLM dovrebbero essere pre-addestrati con dati immagine?

Abstract

I modelli linguistici pre-addestrati (LLM) che vengono ulteriormente addestrati con dati visivi ottengono buoni risultati nei compiti di visione e linguaggio. Sebbene l'aggiunta di immagini durante una seconda fase di addestramento sblocchi efficacemente questa capacità, non è chiaro quanto guadagno o perdita comporti questa pipeline in due fasi rispetto ai modelli di visione e linguaggio (VLM) che integrano le immagini in una fase precedente del processo di addestramento. Per indagare questo aspetto, addestriamo modelli su vari dataset, scale, rapporti immagine-testo e quantità di pre-addestramento effettuato prima di introdurre i token visivi. Successivamente, ottimizziamo questi modelli e valutiamo le loro prestazioni su una serie di compiti di visione e linguaggio e di soli testi. Scopriamo che il pre-addestramento con una miscela di dati visivi e testuali consente ai modelli di ottenere migliori risultati nei compiti di visione e linguaggio, mantenendo al contempo prestazioni solide nelle valutazioni di soli testi. In media su 6 compiti diversi, osserviamo che per un modello da 1 miliardo di parametri, l'introduzione di token visivi all'80% del pre-addestramento comporta un miglioramento medio del 2% rispetto all'introduzione di token visivi in un modello completamente pre-addestrato.

English

Pre-trained LLMs that are further trained with image data perform well on vision-language tasks. While adding images during a second training phase effectively unlocks this capability, it is unclear how much of a gain or loss this two-step pipeline gives over VLMs which integrate images earlier into the training process. To investigate this, we train models spanning various datasets, scales, image-text ratios, and amount of pre-training done before introducing vision tokens. We then fine-tune these models and evaluate their downstream performance on a suite of vision-language and text-only tasks. We find that pre-training with a mixture of image and text data allows models to perform better on vision-language tasks while maintaining strong performance on text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B model, introducing visual tokens 80% of the way through pre-training results in a 2% average improvement over introducing visual tokens to a fully pre-trained model.

I VLM dovrebbero essere pre-addestrati con dati immagine?

Should VLMs be Pre-trained with Image Data?

Abstract

Support