Het meten van voortgang in gedetailleerd visueel en taalbegrip
Measuring Progress in Fine-grained Vision-and-Language Understanding
May 12, 2023
Auteurs: Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
cs.AI
Samenvatting
Hoewel vooraf trainen op grootschalige beeld-tekstgegevens van het web snelle vooruitgang heeft mogelijk gemaakt op veel visie-en-taal (V&L) taken, heeft recent werk aangetoond dat vooraf getrainde modellen een gebrek hebben aan "fijnmazig" begrip, zoals het vermogen om relaties, werkwoorden en getallen in afbeeldingen te herkennen. Dit heeft geleid tot een groeiende interesse in de gemeenschap om nieuwe benchmarks of modellen voor dergelijke vaardigheden te ontwikkelen. Om de voortgang in deze richting beter te begrijpen en te kwantificeren, onderzoeken we vier concurrerende V&L-modellen op vier fijnmazige benchmarks. Uit onze analyse blijkt dat X-VLM (Zeng et al., 2022) consistent beter presteert dan andere baselines, en dat innovaties in modellering een grotere impact kunnen hebben op de prestaties dan het schalen van webgegevens, wat soms zelfs tot prestatieverlies leidt. Door een dieper onderzoek van X-VLM benadrukken we het belang van zowel nieuwe verliesfuncties als rijke databronnen voor het aanleren van fijnmazige vaardigheden. Ten slotte inspecteren we de trainingsdynamiek en ontdekken dat voor sommige taken de prestaties vroeg in de training pieken of aanzienlijk fluctueren, zonder ooit te convergeren.
English
While pretraining on large-scale image-text data from the Web has facilitated
rapid progress on many vision-and-language (V&L) tasks, recent work has
demonstrated that pretrained models lack "fine-grained" understanding, such as
the ability to recognise relationships, verbs, and numbers in images. This has
resulted in an increased interest in the community to either develop new
benchmarks or models for such capabilities. To better understand and quantify
progress in this direction, we investigate four competitive V&L models on four
fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al.,
2022) consistently outperforms other baselines, and that modelling innovations
can impact performance more than scaling Web data, which even degrades
performance sometimes. Through a deeper investigation of X-VLM, we highlight
the importance of both novel losses and rich data sources for learning
fine-grained skills. Finally, we inspect training dynamics, and discover that
for some tasks, performance peaks early in training or significantly
fluctuates, never converging.