ChatPaper.aiChatPaper

Het onthullen van encoder-vrije visie-taalmodellen

Unveiling Encoder-Free Vision-Language Models

June 17, 2024
Auteurs: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
cs.AI

Samenvatting

Bestaande vision-language modellen (VLMs) vertrouwen voornamelijk op vision-encoders om visuele kenmerken te extraheren, gevolgd door grote taalmodellen (LLMs) voor visueel-taalkundige taken. De vision-encoders leggen echter een sterke inductieve bias op bij het abstraheren van visuele representaties, zoals resolutie, beeldverhouding en semantische voorkennis, wat de flexibiliteit en efficiëntie van de VLMs kan belemmeren. Het trainen van pure VLMs die naadloze visuele en taalkundige invoer accepteren, dus zonder vision-encoders, blijft een uitdaging en is zelden onderzocht. Empirische observaties tonen aan dat direct trainen zonder encoders leidt tot langzame convergentie en grote prestatieverschillen. In dit werk overbruggen we de kloof tussen encoder-gebaseerde en encoder-vrije modellen en presenteren we een eenvoudig maar effectief trainingsrecept voor pure VLMs. Specifiek onthullen we de cruciale aspecten van het efficiënt trainen van encoder-vrije VLMs via grondige experimenten: (1) Het overbruggen van visueel-taalkundige representaties binnen één geïntegreerde decoder; (2) Het verbeteren van visuele herkenningscapaciteit via extra supervisie. Met deze strategieën lanceren we EVE, een encoder-vrij vision-language model dat efficiënt getraind en uitgevoerd kan worden. Opmerkelijk is dat EVE, met slechts 35M openbaar toegankelijke data, indrukwekkend kan concurreren met encoder-gebaseerde VLMs van vergelijkbare capaciteiten op meerdere vision-language benchmarks. Het presteert aanzienlijk beter dan het tegenhanger Fuyu-8B, dat mysterieuze trainingsprocedures en niet-openbaar gemaakte trainingsdata gebruikt. Wij geloven dat EVE een transparante en efficiënte route biedt voor de ontwikkeling van een pure decoder-only architectuur over verschillende modaliteiten. Onze code en modellen zijn openbaar beschikbaar op: https://github.com/baaivision/EVE.
English
Existing vision-language models (VLMs) mostly rely on vision encoders to extract visual features followed by large language models (LLMs) for visual-language tasks. However, the vision encoders set a strong inductive bias in abstracting visual representation, e.g., resolution, aspect ratio, and semantic priors, which could impede the flexibility and efficiency of the VLMs. Training pure VLMs that accept the seamless vision and language inputs, i.e., without vision encoders, remains challenging and rarely explored. Empirical observations reveal that direct training without encoders results in slow convergence and large performance gaps. In this work, we bridge the gap between encoder-based and encoder-free models, and present a simple yet effective training recipe towards pure VLMs. Specifically, we unveil the key aspects of training encoder-free VLMs efficiently via thorough experiments: (1) Bridging vision-language representation inside one unified decoder; (2) Enhancing visual recognition capability via extra supervision. With these strategies, we launch EVE, an encoder-free vision-language model that can be trained and forwarded efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can impressively rival the encoder-based VLMs of similar capacities across multiple vision-language benchmarks. It significantly outperforms the counterpart Fuyu-8B with mysterious training procedures and undisclosed training data. We believe that EVE provides a transparent and efficient route for developing a pure decoder-only architecture across modalities. Our code and models are publicly available at: https://github.com/baaivision/EVE.
PDF544February 8, 2026