VILA: Over Pre-training voor Visuele Taalmodellen
VILA: On Pre-training for Visual Language Models
December 12, 2023
Auteurs: Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
cs.AI
Samenvatting
Visuele taalmodellen (VLMs) hebben een snelle vooruitgang geboekt dankzij het recente succes van grote taalmodellen. Er zijn steeds meer inspanningen geleverd voor visuele instructieafstemming om het LLM uit te breiden met visuele invoer, maar er ontbreekt een diepgaande studie van het visuele taalvooraf-trainingsproces, waarbij het model leert om gezamenlijke modellering uit te voeren op beide modaliteiten. In dit werk onderzoeken we de ontwerpkeuzes voor VLM-vooraf-training door het LLM stapsgewijs uit te breiden naar een VLM via controleerbare vergelijkingen. We introduceren drie belangrijke bevindingen: (1) het bevriezen van LLMs tijdens de vooraf-training kan een behoorlijke zero-shot prestatie bereiken, maar mist de mogelijkheid tot in-context leren, wat vereist dat het LLM wordt ontdooid; (2) interleaved vooraf-trainingsdata is gunstig, terwijl beeld-tekstparen alleen niet optimaal zijn; (3) het opnieuw mengen van tekst-only instructiedata met beeld-tekstdata tijdens instructie-finetuning herstelt niet alleen de degradatie van tekst-only taken, maar verhoogt ook de nauwkeurigheid van VLM-taken. Met een verbeterd vooraf-trainingsrecept bouwen we VILA, een familie van Visuele Taalmodellen die consistent de state-of-the-art modellen, zoals LLaVA-1.5, overtreft op de belangrijkste benchmarks zonder extra toeters en bellen. Multi-modale vooraf-training helpt ook om aantrekkelijke eigenschappen van VILA te onthullen, waaronder redeneren met meerdere afbeeldingen, verbeterd in-context leren en betere wereldkennis.
English
Visual language models (VLMs) rapidly progressed with the recent success of
large language models. There have been growing efforts on visual instruction
tuning to extend the LLM with visual inputs, but lacks an in-depth study of the
visual language pre-training process, where the model learns to perform joint
modeling on both modalities. In this work, we examine the design options for
VLM pre-training by augmenting LLM towards VLM through step-by-step
controllable comparisons. We introduce three main findings: (1) freezing LLMs
during pre-training can achieve decent zero-shot performance, but lack
in-context learning capability, which requires unfreezing the LLM; (2)
interleaved pre-training data is beneficial whereas image-text pairs alone are
not optimal; (3) re-blending text-only instruction data to image-text data
during instruction fine-tuning not only remedies the degradation of text-only
tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe
we build VILA, a Visual Language model family that consistently outperforms the
state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells
and whistles. Multi-modal pre-training also helps unveil appealing properties
of VILA, including multi-image reasoning, enhanced in-context learning, and
better world knowledge.