ChatPaper.aiChatPaper

Medición del Progreso en la Comprensión Detallada de Visión y Lenguaje

Measuring Progress in Fine-grained Vision-and-Language Understanding

May 12, 2023
Autores: Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
cs.AI

Resumen

Si bien el preentrenamiento con datos a gran escala de imágenes y texto de la Web ha facilitado avances rápidos en muchas tareas de visión y lenguaje (V&L), trabajos recientes han demostrado que los modelos preentrenados carecen de una comprensión "detallada", como la capacidad de reconocer relaciones, verbos y números en las imágenes. Esto ha generado un mayor interés en la comunidad por desarrollar nuevos puntos de referencia o modelos para tales capacidades. Para comprender y cuantificar mejor el progreso en esta dirección, investigamos cuatro modelos competitivos de V&L en cuatro puntos de referencia detallados. A través de nuestro análisis, encontramos que X-VLM (Zeng et al., 2022) supera consistentemente a otras líneas base, y que las innovaciones en el modelado pueden tener un mayor impacto en el rendimiento que la ampliación de datos de la Web, lo que incluso degrada el rendimiento en ocasiones. Mediante una investigación más profunda de X-VLM, destacamos la importancia tanto de nuevas funciones de pérdida como de fuentes de datos enriquecidas para aprender habilidades detalladas. Finalmente, inspeccionamos la dinámica del entrenamiento y descubrimos que, para algunas tareas, el rendimiento alcanza su punto máximo al inicio del entrenamiento o fluctúa significativamente, sin converger nunca.
English
While pretraining on large-scale image-text data from the Web has facilitated rapid progress on many vision-and-language (V&L) tasks, recent work has demonstrated that pretrained models lack "fine-grained" understanding, such as the ability to recognise relationships, verbs, and numbers in images. This has resulted in an increased interest in the community to either develop new benchmarks or models for such capabilities. To better understand and quantify progress in this direction, we investigate four competitive V&L models on four fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al., 2022) consistently outperforms other baselines, and that modelling innovations can impact performance more than scaling Web data, which even degrades performance sometimes. Through a deeper investigation of X-VLM, we highlight the importance of both novel losses and rich data sources for learning fine-grained skills. Finally, we inspect training dynamics, and discover that for some tasks, performance peaks early in training or significantly fluctuates, never converging.
PDF10December 15, 2024