EVEv2: Mejoras en los Baselines para Modelos Visión-Lenguaje sin Codificador

Resumen

Los modelos visión-lenguaje sin codificador existentes (VLMs) están reduciendo rápidamente la brecha de rendimiento con sus contrapartes basadas en codificadores, resaltando el potencial prometedor de sistemas multimodales unificados con simplicidad estructural y despliegue eficiente. Clarificamos sistemáticamente la brecha de rendimiento entre los VLMs que utilizan codificadores de visión pre-entrenados, tokenizadores discretos y capas visuales mínimas desde cero, excavando profundamente las características poco examinadas de los VLMs sin codificador. Desarrollamos estrategias eficientes para los VLMs sin codificador que rivalizan con los basados en codificadores convencionales. Tras una investigación exhaustiva, lanzamos EVEv2.0, una nueva y mejorada familia de VLMs sin codificador. Mostramos que: (i) Descomponer adecuadamente y asociar jerárquicamente visión y lenguaje dentro de un modelo unificado reduce la interferencia entre modalidades. (ii) Una estrategia de entrenamiento bien diseñada permite una optimización efectiva para los VLMs sin codificador. A través de una evaluación extensa, nuestro EVEv2.0 representa un estudio exhaustivo para el desarrollo de una arquitectura solo de decodificador entre modalidades, demostrando una eficiencia de datos superior y una sólida capacidad de razonamiento visual. El código está disponible públicamente en: https://github.com/baaivision/EVE.

English

Existing encoder-free vision-language models (VLMs) are rapidly narrowing the performance gap with their encoder-based counterparts, highlighting the promising potential for unified multimodal systems with structural simplicity and efficient deployment. We systematically clarify the performance gap between VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist visual layers from scratch, deeply excavating the under-examined characteristics of encoder-free VLMs. We develop efficient strategies for encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth investigation, we launch EVEv2.0, a new and improved family of encoder-free VLMs. We show that: (i) Properly decomposing and hierarchically associating vision and language within a unified model reduces interference between modalities. (ii) A well-designed training strategy enables effective optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0 represents a thorough study for developing a decoder-only architecture across modalities, demonstrating superior data efficiency and strong vision-reasoning capability. Code is publicly available at: https://github.com/baaivision/EVE.

EVEv2: Mejoras en los Baselines para Modelos Visión-Lenguaje sin Codificador

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

Resumen

Support