ChatPaper.aiChatPaper

Mesurer les progrès dans la compréhension fine-grainée vision-langage

Measuring Progress in Fine-grained Vision-and-Language Understanding

May 12, 2023
Auteurs: Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
cs.AI

Résumé

Bien que le pré-entraînement sur des données image-texte à grande échelle provenant du Web ait facilité des progrès rapides dans de nombreuses tâches de vision et langage (V&L), des travaux récents ont montré que les modèles pré-entraînés manquent de compréhension "fine", comme la capacité à reconnaître des relations, des verbes et des nombres dans les images. Cela a suscité un intérêt croissant dans la communauté pour développer soit de nouveaux benchmarks, soit des modèles pour de telles capacités. Pour mieux comprendre et quantifier les progrès dans cette direction, nous étudions quatre modèles compétitifs de V&L sur quatre benchmarks axés sur la granularité fine. À travers notre analyse, nous constatons que X-VLM (Zeng et al., 2022) surpasse systématiquement les autres modèles de référence, et que les innovations en matière de modélisation peuvent avoir un impact plus important que la mise à l'échelle des données Web, ce qui dégrade parfois même les performances. En examinant plus en profondeur X-VLM, nous soulignons l'importance à la fois des nouvelles fonctions de perte et des sources de données riches pour l'apprentissage de compétences fines. Enfin, nous inspectons la dynamique de l'entraînement et découvrons que, pour certaines tâches, les performances atteignent un pic tôt dans l'entraînement ou fluctuent considérablement, sans jamais converger.
English
While pretraining on large-scale image-text data from the Web has facilitated rapid progress on many vision-and-language (V&L) tasks, recent work has demonstrated that pretrained models lack "fine-grained" understanding, such as the ability to recognise relationships, verbs, and numbers in images. This has resulted in an increased interest in the community to either develop new benchmarks or models for such capabilities. To better understand and quantify progress in this direction, we investigate four competitive V&L models on four fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al., 2022) consistently outperforms other baselines, and that modelling innovations can impact performance more than scaling Web data, which even degrades performance sometimes. Through a deeper investigation of X-VLM, we highlight the importance of both novel losses and rich data sources for learning fine-grained skills. Finally, we inspect training dynamics, and discover that for some tasks, performance peaks early in training or significantly fluctuates, never converging.
PDF10December 15, 2024