Revelando modelos de visión-lenguaje sin codificador.
Unveiling Encoder-Free Vision-Language Models
June 17, 2024
Autores: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
cs.AI
Resumen
Los modelos de visión-lenguaje existentes (VLMs) en su mayoría dependen de codificadores de visión para extraer características visuales seguidas de grandes modelos de lenguaje (LLMs) para tareas de visión-lenguaje. Sin embargo, los codificadores de visión imponen un fuerte sesgo inductivo en la abstracción de la representación visual, por ejemplo, la resolución, la relación de aspecto y los supuestos semánticos, lo cual podría obstaculizar la flexibilidad y eficiencia de los VLMs. Entrenar VLMs puros que acepten entradas de visión y lenguaje de forma continua, es decir, sin codificadores de visión, sigue siendo un desafío y rara vez explorado. Observaciones empíricas revelan que el entrenamiento directo sin codificadores resulta en una convergencia lenta y grandes brechas de rendimiento. En este trabajo, cerramos la brecha entre los modelos basados en codificadores y los modelos libres de codificadores, y presentamos una receta de entrenamiento simple pero efectiva hacia VLMs puros. Específicamente, desvelamos los aspectos clave del entrenamiento de VLMs libres de codificadores de manera eficiente a través de experimentos exhaustivos: (1) Uniendo la representación visión-lenguaje dentro de un decodificador unificado; (2) Mejorando la capacidad de reconocimiento visual mediante supervisión adicional. Con estas estrategias, lanzamos EVE, un modelo de visión-lenguaje libre de codificadores que puede ser entrenado y utilizado de manera eficiente. Notablemente, utilizando únicamente 35M de datos accesibles públicamente, EVE puede rivalizar de manera impresionante con los VLMs basados en codificadores de capacidades similares en múltiples benchmarks de visión-lenguaje. Supera significativamente al contraparte Fuyu-8B con procedimientos de entrenamiento misteriosos y datos de entrenamiento no revelados. Creemos que EVE proporciona una ruta transparente y eficiente para desarrollar una arquitectura pura de solo decodificador a través de modalidades. Nuestro código y modelos están disponibles públicamente en: https://github.com/baaivision/EVE.
English
Existing vision-language models (VLMs) mostly rely on vision encoders to
extract visual features followed by large language models (LLMs) for
visual-language tasks. However, the vision encoders set a strong inductive bias
in abstracting visual representation, e.g., resolution, aspect ratio, and
semantic priors, which could impede the flexibility and efficiency of the VLMs.
Training pure VLMs that accept the seamless vision and language inputs, i.e.,
without vision encoders, remains challenging and rarely explored. Empirical
observations reveal that direct training without encoders results in slow
convergence and large performance gaps. In this work, we bridge the gap between
encoder-based and encoder-free models, and present a simple yet effective
training recipe towards pure VLMs. Specifically, we unveil the key aspects of
training encoder-free VLMs efficiently via thorough experiments: (1) Bridging
vision-language representation inside one unified decoder; (2) Enhancing visual
recognition capability via extra supervision. With these strategies, we launch
EVE, an encoder-free vision-language model that can be trained and forwarded
efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can
impressively rival the encoder-based VLMs of similar capacities across multiple
vision-language benchmarks. It significantly outperforms the counterpart
Fuyu-8B with mysterious training procedures and undisclosed training data. We
believe that EVE provides a transparent and efficient route for developing a
pure decoder-only architecture across modalities. Our code and models are
publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary