ChatPaper.aiChatPaper

Revelando Modelos de Visão-Linguagem sem Codificador

Unveiling Encoder-Free Vision-Language Models

June 17, 2024
Autores: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
cs.AI

Resumo

Os modelos de visão-linguagem existentes (VLMs) geralmente dependem principalmente de codificadores de visão para extrair características visuais seguidas por grandes modelos de linguagem (LLMs) para tarefas de visão-linguagem. No entanto, os codificadores de visão estabelecem um viés indutivo forte na abstração da representação visual, por exemplo, resolução, proporção de aspecto e prioridades semânticas, o que poderia prejudicar a flexibilidade e eficiência dos VLMs. Treinar VLMs puros que aceitem entradas de visão e linguagem de forma contínua, ou seja, sem codificadores de visão, continua sendo um desafio e raramente explorado. Observações empíricas revelam que o treinamento direto sem codificadores resulta em convergência lenta e grandes lacunas de desempenho. Neste trabalho, nós aproximamos o abismo entre modelos baseados em codificadores e modelos sem codificadores, e apresentamos uma receita de treinamento simples, porém eficaz, para VLMs puros. Especificamente, revelamos os aspectos-chave do treinamento eficiente de VLMs sem codificadores por meio de experimentos detalhados: (1) Unindo a representação de visão-linguagem dentro de um único decodificador unificado; (2) Aprimorando a capacidade de reconhecimento visual por meio de supervisão adicional. Com essas estratégias, lançamos o EVE, um modelo de visão-linguagem sem codificador que pode ser treinado e utilizado de forma eficiente. Notavelmente, utilizando apenas 35M de dados publicamente acessíveis, o EVE pode impressionantemente rivalizar com os VLMs baseados em codificadores de capacidades similares em múltiplos benchmarks de visão-linguagem. Ele supera significativamente o Fuyu-8B correspondente, com procedimentos de treinamento misteriosos e dados de treinamento não divulgados. Acreditamos que o EVE oferece uma rota transparente e eficiente para o desenvolvimento de uma arquitetura puramente baseada em decodificadores em diversas modalidades. Nosso código e modelos estão disponíveis publicamente em: https://github.com/baaivision/EVE.
English
Existing vision-language models (VLMs) mostly rely on vision encoders to extract visual features followed by large language models (LLMs) for visual-language tasks. However, the vision encoders set a strong inductive bias in abstracting visual representation, e.g., resolution, aspect ratio, and semantic priors, which could impede the flexibility and efficiency of the VLMs. Training pure VLMs that accept the seamless vision and language inputs, i.e., without vision encoders, remains challenging and rarely explored. Empirical observations reveal that direct training without encoders results in slow convergence and large performance gaps. In this work, we bridge the gap between encoder-based and encoder-free models, and present a simple yet effective training recipe towards pure VLMs. Specifically, we unveil the key aspects of training encoder-free VLMs efficiently via thorough experiments: (1) Bridging vision-language representation inside one unified decoder; (2) Enhancing visual recognition capability via extra supervision. With these strategies, we launch EVE, an encoder-free vision-language model that can be trained and forwarded efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can impressively rival the encoder-based VLMs of similar capacities across multiple vision-language benchmarks. It significantly outperforms the counterpart Fuyu-8B with mysterious training procedures and undisclosed training data. We believe that EVE provides a transparent and efficient route for developing a pure decoder-only architecture across modalities. Our code and models are publicly available at: https://github.com/baaivision/EVE.
PDF554November 28, 2024