Svelare i Modelli Visione-Linguaggio senza Encoder
Unveiling Encoder-Free Vision-Language Models
June 17, 2024
Autori: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) esistenti si basano principalmente su encoder visivi per estrarre caratteristiche visive, seguiti da grandi modelli linguistici (LLMs) per compiti di visione-linguaggio. Tuttavia, gli encoder visivi impongono un forte bias induttivo nell'astrazione della rappresentazione visiva, ad esempio risoluzione, rapporto d'aspetto e priorità semantiche, che potrebbe ostacolare la flessibilità e l'efficienza dei VLMs. Addestrare VLMs puri che accettano input visivi e linguistici senza soluzione di continuità, cioè senza encoder visivi, rimane una sfida e raramente è stato esplorato. Osservazioni empiriche rivelano che l'addestramento diretto senza encoder risulta in una convergenza lenta e ampi divari di prestazione. In questo lavoro, colmiamo il divario tra modelli basati su encoder e modelli senza encoder, e presentiamo una ricetta di addestramento semplice ma efficace verso VLMs puri. Nello specifico, sveliamo gli aspetti chiave per addestrare efficientemente VLMs senza encoder attraverso esperimenti approfonditi: (1) Colmare la rappresentazione visione-linguaggio all'interno di un unico decoder; (2) Migliorare la capacità di riconoscimento visivo tramite supervisione aggiuntiva. Con queste strategie, lanciamo EVE, un modello visione-linguaggio senza encoder che può essere addestrato e utilizzato in modo efficiente. È degno di nota che, utilizzando esclusivamente 35M di dati pubblicamente accessibili, EVE può rivaleggiare in modo impressionante con i VLMs basati su encoder di capacità simili su molteplici benchmark di visione-linguaggio. Supera significativamente il corrispondente Fuyu-8B con procedure di addestramento misteriose e dati di addestramento non divulgati. Crediamo che EVE fornisca una via trasparente ed efficiente per sviluppare un'architettura puramente decoder-only attraverso le modalità. Il nostro codice e i nostri modelli sono pubblicamente disponibili all'indirizzo: https://github.com/baaivision/EVE.
English
Existing vision-language models (VLMs) mostly rely on vision encoders to
extract visual features followed by large language models (LLMs) for
visual-language tasks. However, the vision encoders set a strong inductive bias
in abstracting visual representation, e.g., resolution, aspect ratio, and
semantic priors, which could impede the flexibility and efficiency of the VLMs.
Training pure VLMs that accept the seamless vision and language inputs, i.e.,
without vision encoders, remains challenging and rarely explored. Empirical
observations reveal that direct training without encoders results in slow
convergence and large performance gaps. In this work, we bridge the gap between
encoder-based and encoder-free models, and present a simple yet effective
training recipe towards pure VLMs. Specifically, we unveil the key aspects of
training encoder-free VLMs efficiently via thorough experiments: (1) Bridging
vision-language representation inside one unified decoder; (2) Enhancing visual
recognition capability via extra supervision. With these strategies, we launch
EVE, an encoder-free vision-language model that can be trained and forwarded
efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can
impressively rival the encoder-based VLMs of similar capacities across multiple
vision-language benchmarks. It significantly outperforms the counterpart
Fuyu-8B with mysterious training procedures and undisclosed training data. We
believe that EVE provides a transparent and efficient route for developing a
pure decoder-only architecture across modalities. Our code and models are
publicly available at: https://github.com/baaivision/EVE.