EVEv2: Mejoras en los Baselines para Modelos Visión-Lenguaje sin Codificador
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
February 10, 2025
Autores: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI
Resumen
Los modelos visión-lenguaje sin codificador existentes (VLMs) están reduciendo rápidamente la brecha de rendimiento con sus contrapartes basadas en codificadores, resaltando el potencial prometedor de sistemas multimodales unificados con simplicidad estructural y despliegue eficiente. Clarificamos sistemáticamente la brecha de rendimiento entre los VLMs que utilizan codificadores de visión pre-entrenados, tokenizadores discretos y capas visuales mínimas desde cero, excavando profundamente las características poco examinadas de los VLMs sin codificador. Desarrollamos estrategias eficientes para los VLMs sin codificador que rivalizan con los basados en codificadores convencionales. Tras una investigación exhaustiva, lanzamos EVEv2.0, una nueva y mejorada familia de VLMs sin codificador. Mostramos que: (i) Descomponer adecuadamente y asociar jerárquicamente visión y lenguaje dentro de un modelo unificado reduce la interferencia entre modalidades. (ii) Una estrategia de entrenamiento bien diseñada permite una optimización efectiva para los VLMs sin codificador. A través de una evaluación extensa, nuestro EVEv2.0 representa un estudio exhaustivo para el desarrollo de una arquitectura solo de decodificador entre modalidades, demostrando una eficiencia de datos superior y una sólida capacidad de razonamiento visual. El código está disponible públicamente en: https://github.com/baaivision/EVE.
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the
performance gap with their encoder-based counterparts, highlighting the
promising potential for unified multimodal systems with structural simplicity
and efficient deployment. We systematically clarify the performance gap between
VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist
visual layers from scratch, deeply excavating the under-examined
characteristics of encoder-free VLMs. We develop efficient strategies for
encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth
investigation, we launch EVEv2.0, a new and improved family of encoder-free
VLMs. We show that: (i) Properly decomposing and hierarchically associating
vision and language within a unified model reduces interference between
modalities. (ii) A well-designed training strategy enables effective
optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0
represents a thorough study for developing a decoder-only architecture across
modalities, demonstrating superior data efficiency and strong vision-reasoning
capability. Code is publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary