Messung des Fortschritts im feinkörnigen Verständnis von Vision und Sprache
Measuring Progress in Fine-grained Vision-and-Language Understanding
May 12, 2023
Autoren: Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
cs.AI
Zusammenfassung
Während das Vortraining auf groß angelegten Bild-Text-Daten aus dem Internet
rasche Fortschritte bei vielen Vision-and-Language (V&L)-Aufgaben ermöglicht hat,
hat die jüngste Forschung gezeigt, dass vortrainierte Modelle ein „feinkörniges“
Verständnis vermissen, wie die Fähigkeit, Beziehungen, Verben und Zahlen in
Bildern zu erkennen. Dies hat zu einem gesteigerten Interesse in der Community
geführt, entweder neue Benchmarks oder Modelle für solche Fähigkeiten zu
entwickeln. Um Fortschritte in diese Richtung besser zu verstehen und zu
quantifizieren, untersuchen wir vier konkurrierende V&L-Modelle anhand von vier
feinkörnigen Benchmarks. Durch unsere Analyse stellen wir fest, dass X-VLM (Zeng
et al., 2022) durchweg andere Baselines übertrifft und dass Modellierungsinnovationen
die Leistung stärker beeinflussen können als die Skalierung von Webdaten, die
manchmal sogar die Leistung verschlechtert. Durch eine tiefergehende Untersuchung
von X-VLM heben wir die Bedeutung sowohl neuartiger Verlustfunktionen als auch
reicher Datenquellen für das Erlernen feinkörniger Fähigkeiten hervor. Schließlich
untersuchen wir die Trainingsdynamik und entdecken, dass die Leistung bei einigen
Aufgaben früh im Training ihren Höhepunkt erreicht oder erheblich schwankt, ohne
jemals zu konvergieren.
English
While pretraining on large-scale image-text data from the Web has facilitated
rapid progress on many vision-and-language (V&L) tasks, recent work has
demonstrated that pretrained models lack "fine-grained" understanding, such as
the ability to recognise relationships, verbs, and numbers in images. This has
resulted in an increased interest in the community to either develop new
benchmarks or models for such capabilities. To better understand and quantify
progress in this direction, we investigate four competitive V&L models on four
fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al.,
2022) consistently outperforms other baselines, and that modelling innovations
can impact performance more than scaling Web data, which even degrades
performance sometimes. Through a deeper investigation of X-VLM, we highlight
the importance of both novel losses and rich data sources for learning
fine-grained skills. Finally, we inspect training dynamics, and discover that
for some tasks, performance peaks early in training or significantly
fluctuates, never converging.