¿Qué es importante al construir modelos de visión y lenguaje?What matters when building vision-language models?
El creciente interés en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) ha sido impulsado por las mejoras en los modelos de lenguaje de gran escala y los transformadores de visión. A pesar de la abundante literatura sobre este tema, observamos que las decisiones críticas relacionadas con el diseño de los VLMs a menudo no están justificadas. Argumentamos que estas decisiones no fundamentadas obstaculizan el progreso en el campo, ya que dificultan identificar qué elecciones mejoran el rendimiento del modelo. Para abordar este problema, realizamos experimentos exhaustivos en torno a modelos preentrenados, elección de arquitectura, datos y métodos de entrenamiento. Nuestra consolidación de hallazgos incluye el desarrollo de Idefics2, un VLM fundamental eficiente de 8 mil millones de parámetros. Idefics2 logra un rendimiento de vanguardia dentro de su categoría de tamaño en varios benchmarks multimodales, y a menudo se equipara con modelos cuatro veces más grandes. Publicamos el modelo (base, instruido y de chat) junto con los conjuntos de datos creados para su entrenamiento.