Misurare i progressi nella comprensione fine-grained di visione e linguaggio
Measuring Progress in Fine-grained Vision-and-Language Understanding
May 12, 2023
Autori: Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
cs.AI
Abstract
Sebbene il pre-addestramento su dati su larga scala di immagini e testo provenienti dal Web abbia facilitato rapidi progressi in molti compiti di visione e linguaggio (V&L), lavori recenti hanno dimostrato che i modelli pre-addestrati mancano di una comprensione "fine-grained", come la capacità di riconoscere relazioni, verbi e numeri nelle immagini. Ciò ha portato a un crescente interesse nella comunità per sviluppare nuovi benchmark o modelli per tali capacità. Per comprendere e quantificare meglio i progressi in questa direzione, abbiamo analizzato quattro modelli competitivi di V&L su quattro benchmark fine-grained. Attraverso la nostra analisi, abbiamo riscontrato che X-VLM (Zeng et al., 2022) supera costantemente altri modelli di riferimento e che le innovazioni nella modellazione possono influenzare le prestazioni più del semplice aumento dei dati Web, che a volte addirittura degrada le prestazioni. Attraverso un'analisi più approfondita di X-VLM, evidenziamo l'importanza sia di nuove funzioni di perdita che di fonti di dati ricche per l'apprendimento di abilità fine-grained. Infine, abbiamo esaminato le dinamiche di addestramento e scoperto che, per alcuni compiti, le prestazioni raggiungono il picco all'inizio dell'addestramento o fluttuano significativamente, senza mai convergere.
English
While pretraining on large-scale image-text data from the Web has facilitated
rapid progress on many vision-and-language (V&L) tasks, recent work has
demonstrated that pretrained models lack "fine-grained" understanding, such as
the ability to recognise relationships, verbs, and numbers in images. This has
resulted in an increased interest in the community to either develop new
benchmarks or models for such capabilities. To better understand and quantify
progress in this direction, we investigate four competitive V&L models on four
fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al.,
2022) consistently outperforms other baselines, and that modelling innovations
can impact performance more than scaling Web data, which even degrades
performance sometimes. Through a deeper investigation of X-VLM, we highlight
the importance of both novel losses and rich data sources for learning
fine-grained skills. Finally, we inspect training dynamics, and discover that
for some tasks, performance peaks early in training or significantly
fluctuates, never converging.