ChatPaper.aiChatPaper

¿Qué es importante al construir modelos de visión y lenguaje?

What matters when building vision-language models?

May 3, 2024
Autores: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI

Resumen

El creciente interés en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) ha sido impulsado por las mejoras en los modelos de lenguaje de gran escala y los transformadores de visión. A pesar de la abundante literatura sobre este tema, observamos que las decisiones críticas relacionadas con el diseño de los VLMs a menudo no están justificadas. Argumentamos que estas decisiones no fundamentadas obstaculizan el progreso en el campo, ya que dificultan identificar qué elecciones mejoran el rendimiento del modelo. Para abordar este problema, realizamos experimentos exhaustivos en torno a modelos preentrenados, elección de arquitectura, datos y métodos de entrenamiento. Nuestra consolidación de hallazgos incluye el desarrollo de Idefics2, un VLM fundamental eficiente de 8 mil millones de parámetros. Idefics2 logra un rendimiento de vanguardia dentro de su categoría de tamaño en varios benchmarks multimodales, y a menudo se equipara con modelos cuatro veces más grandes. Publicamos el modelo (base, instruido y de chat) junto con los conjuntos de datos creados para su entrenamiento.
English
The growing interest in vision-language models (VLMs) has been driven by improvements in large language models and vision transformers. Despite the abundance of literature on this subject, we observe that critical decisions regarding the design of VLMs are often not justified. We argue that these unsupported decisions impede progress in the field by making it difficult to identify which choices improve model performance. To address this issue, we conduct extensive experiments around pre-trained models, architecture choice, data, and training methods. Our consolidation of findings includes the development of Idefics2, an efficient foundational VLM of 8 billion parameters. Idefics2 achieves state-of-the-art performance within its size category across various multimodal benchmarks, and is often on par with models four times its size. We release the model (base, instructed, and chat) along with the datasets created for its training.

Summary

AI-Generated Summary

PDF1043December 15, 2024