ChatPaper.aiChatPaper

Révélation des modèles vision-langage sans encodeur

Unveiling Encoder-Free Vision-Language Models

June 17, 2024
Auteurs: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
cs.AI

Résumé

Les modèles vision-langage (VLMs) existants reposent principalement sur des encodeurs visuels pour extraire des caractéristiques visuelles, suivis de grands modèles de langage (LLMs) pour les tâches vision-langage. Cependant, les encodeurs visuels imposent un fort biais inductif dans l'abstraction de la représentation visuelle, par exemple en termes de résolution, de rapport d'aspect et de préjugés sémantiques, ce qui pourrait entraver la flexibilité et l'efficacité des VLMs. L'entraînement de VLMs purs qui acceptent des entrées visuelles et linguistiques sans discontinuité, c'est-à-dire sans encodeurs visuels, reste un défi et est rarement exploré. Des observations empiriques révèlent qu'un entraînement direct sans encodeurs entraîne une convergence lente et des écarts de performance importants. Dans ce travail, nous comblons le fossé entre les modèles basés sur des encodeurs et les modèles sans encodeurs, et présentons une recette d'entraînement simple mais efficace pour des VLMs purs. Plus précisément, nous dévoilons les aspects clés de l'entraînement efficace de VLMs sans encodeurs grâce à des expériences approfondies : (1) Combler la représentation vision-langage au sein d'un décodeur unifié ; (2) Améliorer la capacité de reconnaissance visuelle via une supervision supplémentaire. Avec ces stratégies, nous lançons EVE, un modèle vision-langage sans encodeur qui peut être entraîné et utilisé efficacement. Notamment, en utilisant uniquement 35 millions de données accessibles au public, EVE peut rivaliser de manière impressionnante avec les VLMs basés sur des encodeurs de capacités similaires sur plusieurs benchmarks vision-langage. Il surpasse significativement le modèle Fuyu-8B, dont les procédures d'entraînement mystérieuses et les données d'entraînement non divulguées. Nous croyons qu'EVE offre une voie transparente et efficace pour développer une architecture purement basée sur un décodeur à travers les modalités. Notre code et nos modèles sont disponibles publiquement à l'adresse : https://github.com/baaivision/EVE.
English
Existing vision-language models (VLMs) mostly rely on vision encoders to extract visual features followed by large language models (LLMs) for visual-language tasks. However, the vision encoders set a strong inductive bias in abstracting visual representation, e.g., resolution, aspect ratio, and semantic priors, which could impede the flexibility and efficiency of the VLMs. Training pure VLMs that accept the seamless vision and language inputs, i.e., without vision encoders, remains challenging and rarely explored. Empirical observations reveal that direct training without encoders results in slow convergence and large performance gaps. In this work, we bridge the gap between encoder-based and encoder-free models, and present a simple yet effective training recipe towards pure VLMs. Specifically, we unveil the key aspects of training encoder-free VLMs efficiently via thorough experiments: (1) Bridging vision-language representation inside one unified decoder; (2) Enhancing visual recognition capability via extra supervision. With these strategies, we launch EVE, an encoder-free vision-language model that can be trained and forwarded efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can impressively rival the encoder-based VLMs of similar capacities across multiple vision-language benchmarks. It significantly outperforms the counterpart Fuyu-8B with mysterious training procedures and undisclosed training data. We believe that EVE provides a transparent and efficient route for developing a pure decoder-only architecture across modalities. Our code and models are publicly available at: https://github.com/baaivision/EVE.

Summary

AI-Generated Summary

PDF554November 28, 2024