Revelando modelos de visión-lenguaje sin codificador.Unveiling Encoder-Free Vision-Language Models
Los modelos de visión-lenguaje existentes (VLMs) en su mayoría dependen de codificadores de visión para extraer características visuales seguidas de grandes modelos de lenguaje (LLMs) para tareas de visión-lenguaje. Sin embargo, los codificadores de visión imponen un fuerte sesgo inductivo en la abstracción de la representación visual, por ejemplo, la resolución, la relación de aspecto y los supuestos semánticos, lo cual podría obstaculizar la flexibilidad y eficiencia de los VLMs. Entrenar VLMs puros que acepten entradas de visión y lenguaje de forma continua, es decir, sin codificadores de visión, sigue siendo un desafío y rara vez explorado. Observaciones empíricas revelan que el entrenamiento directo sin codificadores resulta en una convergencia lenta y grandes brechas de rendimiento. En este trabajo, cerramos la brecha entre los modelos basados en codificadores y los modelos libres de codificadores, y presentamos una receta de entrenamiento simple pero efectiva hacia VLMs puros. Específicamente, desvelamos los aspectos clave del entrenamiento de VLMs libres de codificadores de manera eficiente a través de experimentos exhaustivos: (1) Uniendo la representación visión-lenguaje dentro de un decodificador unificado; (2) Mejorando la capacidad de reconocimiento visual mediante supervisión adicional. Con estas estrategias, lanzamos EVE, un modelo de visión-lenguaje libre de codificadores que puede ser entrenado y utilizado de manera eficiente. Notablemente, utilizando únicamente 35M de datos accesibles públicamente, EVE puede rivalizar de manera impresionante con los VLMs basados en codificadores de capacidades similares en múltiples benchmarks de visión-lenguaje. Supera significativamente al contraparte Fuyu-8B con procedimientos de entrenamiento misteriosos y datos de entrenamiento no revelados. Creemos que EVE proporciona una ruta transparente y eficiente para desarrollar una arquitectura pura de solo decodificador a través de modalidades. Nuestro código y modelos están disponibles públicamente en: https://github.com/baaivision/EVE.