EVEv2 : Baselines améliorées pour les modèles Vision-Language sans encodeur
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
February 10, 2025
Auteurs: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI
Résumé
Les modèles vision-langage sans encodeur existants (VLM) réduisent rapidement l'écart de performance avec leurs homologues basés sur un encodeur, mettant en avant le potentiel prometteur des systèmes multimodaux unifiés avec une simplicité structurelle et un déploiement efficace. Nous clarifions systématiquement l'écart de performance entre les VLM utilisant des encodeurs vision pré-entraînés, des tokeniseurs discrets et des couches visuelles minimalistes à partir de zéro, explorant en profondeur les caractéristiques peu étudiées des VLM sans encodeur. Nous développons des stratégies efficaces pour les VLM sans encodeur qui rivalisent avec les modèles basés sur un encodeur classiques. Après une enquête approfondie, nous lançons EVEv2.0, une nouvelle et améliorée famille de VLM sans encodeur. Nous montrons que : (i) La décomposition adéquate et l'association hiérarchique de la vision et du langage au sein d'un modèle unifié réduisent les interférences entre les modalités. (ii) Une stratégie d'entraînement bien conçue permet une optimisation efficace des VLM sans encodeur. À travers une évaluation approfondie, notre EVEv2.0 représente une étude approfondie pour le développement d'une architecture uniquement basée sur un décodeur à travers les modalités, démontrant une efficacité de données supérieure et une forte capacité de raisonnement visuel. Le code est publiquement disponible sur : https://github.com/baaivision/EVE.
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the
performance gap with their encoder-based counterparts, highlighting the
promising potential for unified multimodal systems with structural simplicity
and efficient deployment. We systematically clarify the performance gap between
VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist
visual layers from scratch, deeply excavating the under-examined
characteristics of encoder-free VLMs. We develop efficient strategies for
encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth
investigation, we launch EVEv2.0, a new and improved family of encoder-free
VLMs. We show that: (i) Properly decomposing and hierarchically associating
vision and language within a unified model reduces interference between
modalities. (ii) A well-designed training strategy enables effective
optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0
represents a thorough study for developing a decoder-only architecture across
modalities, demonstrating superior data efficiency and strong vision-reasoning
capability. Code is publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary