EVEv2: Melhores Baselines para Modelos Visão-Linguagem sem Codificador
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
February 10, 2025
Autores: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI
Resumo
Os modelos de visão-linguagem sem codificador existentes (VLMs) estão rapidamente reduzindo a diferença de desempenho com seus equivalentes baseados em codificador, destacando o potencial promissor para sistemas multimodais unificados com simplicidade estrutural e implantação eficiente. Esclarecemos sistematicamente a diferença de desempenho entre os VLMs que utilizam codificadores de visão pré-treinados, tokenizadores discretos e camadas visuais minimalistas a partir do zero, explorando profundamente as características pouco examinadas dos VLMs sem codificador. Desenvolvemos estratégias eficientes para os VLMs sem codificador que rivalizam com os baseados em codificador mainstream. Após uma investigação aprofundada, lançamos o EVEv2.0, uma nova e aprimorada família de VLMs sem codificador. Mostramos que: (i) Decompor adequadamente e associar hierarquicamente visão e linguagem dentro de um modelo unificado reduz a interferência entre modalidades. (ii) Uma estratégia de treinamento bem projetada permite a otimização eficaz para os VLMs sem codificador. Através de uma avaliação extensiva, nosso EVEv2.0 representa um estudo abrangente para o desenvolvimento de uma arquitetura apenas de decodificador entre modalidades, demonstrando eficiência de dados superior e forte capacidade de raciocínio visual. O código está disponível publicamente em: https://github.com/baaivision/EVE.
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the
performance gap with their encoder-based counterparts, highlighting the
promising potential for unified multimodal systems with structural simplicity
and efficient deployment. We systematically clarify the performance gap between
VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist
visual layers from scratch, deeply excavating the under-examined
characteristics of encoder-free VLMs. We develop efficient strategies for
encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth
investigation, we launch EVEv2.0, a new and improved family of encoder-free
VLMs. We show that: (i) Properly decomposing and hierarchically associating
vision and language within a unified model reduces interference between
modalities. (ii) A well-designed training strategy enables effective
optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0
represents a thorough study for developing a decoder-only architecture across
modalities, demonstrating superior data efficiency and strong vision-reasoning
capability. Code is publicly available at: https://github.com/baaivision/EVE.