ChatPaper.aiChatPaper

EVEv2: Melhores Baselines para Modelos Visão-Linguagem sem Codificador

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

February 10, 2025
Autores: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI

Resumo

Os modelos de visão-linguagem sem codificador existentes (VLMs) estão rapidamente reduzindo a diferença de desempenho com seus equivalentes baseados em codificador, destacando o potencial promissor para sistemas multimodais unificados com simplicidade estrutural e implantação eficiente. Esclarecemos sistematicamente a diferença de desempenho entre os VLMs que utilizam codificadores de visão pré-treinados, tokenizadores discretos e camadas visuais minimalistas a partir do zero, explorando profundamente as características pouco examinadas dos VLMs sem codificador. Desenvolvemos estratégias eficientes para os VLMs sem codificador que rivalizam com os baseados em codificador mainstream. Após uma investigação aprofundada, lançamos o EVEv2.0, uma nova e aprimorada família de VLMs sem codificador. Mostramos que: (i) Decompor adequadamente e associar hierarquicamente visão e linguagem dentro de um modelo unificado reduz a interferência entre modalidades. (ii) Uma estratégia de treinamento bem projetada permite a otimização eficaz para os VLMs sem codificador. Através de uma avaliação extensiva, nosso EVEv2.0 representa um estudo abrangente para o desenvolvimento de uma arquitetura apenas de decodificador entre modalidades, demonstrando eficiência de dados superior e forte capacidade de raciocínio visual. O código está disponível publicamente em: https://github.com/baaivision/EVE.
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the performance gap with their encoder-based counterparts, highlighting the promising potential for unified multimodal systems with structural simplicity and efficient deployment. We systematically clarify the performance gap between VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist visual layers from scratch, deeply excavating the under-examined characteristics of encoder-free VLMs. We develop efficient strategies for encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth investigation, we launch EVEv2.0, a new and improved family of encoder-free VLMs. We show that: (i) Properly decomposing and hierarchically associating vision and language within a unified model reduces interference between modalities. (ii) A well-designed training strategy enables effective optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0 represents a thorough study for developing a decoder-only architecture across modalities, demonstrating superior data efficiency and strong vision-reasoning capability. Code is publicly available at: https://github.com/baaivision/EVE.
PDF132February 11, 2025