Het meten van voortgang in gedetailleerd visueel en taalbegrip

Samenvatting

Hoewel vooraf trainen op grootschalige beeld-tekstgegevens van het web snelle vooruitgang heeft mogelijk gemaakt op veel visie-en-taal (V&L) taken, heeft recent werk aangetoond dat vooraf getrainde modellen een gebrek hebben aan "fijnmazig" begrip, zoals het vermogen om relaties, werkwoorden en getallen in afbeeldingen te herkennen. Dit heeft geleid tot een groeiende interesse in de gemeenschap om nieuwe benchmarks of modellen voor dergelijke vaardigheden te ontwikkelen. Om de voortgang in deze richting beter te begrijpen en te kwantificeren, onderzoeken we vier concurrerende V&L-modellen op vier fijnmazige benchmarks. Uit onze analyse blijkt dat X-VLM (Zeng et al., 2022) consistent beter presteert dan andere baselines, en dat innovaties in modellering een grotere impact kunnen hebben op de prestaties dan het schalen van webgegevens, wat soms zelfs tot prestatieverlies leidt. Door een dieper onderzoek van X-VLM benadrukken we het belang van zowel nieuwe verliesfuncties als rijke databronnen voor het aanleren van fijnmazige vaardigheden. Ten slotte inspecteren we de trainingsdynamiek en ontdekken dat voor sommige taken de prestaties vroeg in de training pieken of aanzienlijk fluctueren, zonder ooit te convergeren.

English

While pretraining on large-scale image-text data from the Web has facilitated rapid progress on many vision-and-language (V&L) tasks, recent work has demonstrated that pretrained models lack "fine-grained" understanding, such as the ability to recognise relationships, verbs, and numbers in images. This has resulted in an increased interest in the community to either develop new benchmarks or models for such capabilities. To better understand and quantify progress in this direction, we investigate four competitive V&L models on four fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al., 2022) consistently outperforms other baselines, and that modelling innovations can impact performance more than scaling Web data, which even degrades performance sometimes. Through a deeper investigation of X-VLM, we highlight the importance of both novel losses and rich data sources for learning fine-grained skills. Finally, we inspect training dynamics, and discover that for some tasks, performance peaks early in training or significantly fluctuates, never converging.

Het meten van voortgang in gedetailleerd visueel en taalbegrip

Measuring Progress in Fine-grained Vision-and-Language Understanding

Samenvatting

Support