Die Verbesserung der Vorabtrainierung von Vision-Sprache mit reichen Aufsichtsmaßnahmen.
Enhancing Vision-Language Pre-training with Rich Supervisions
March 5, 2024
Autoren: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
cs.AI
Zusammenfassung
Wir schlagen Strongly Supervised Pre-Training mit Screenshots (S4) vor - ein neuartiges Pre-Training-Paradigma für Vision-Language-Modelle unter Verwendung von Daten aus der groß angelegten Web-Screenshot-Erstellung. Die Verwendung von Web-Screenshots erschließt eine Fülle von visuellen und textuellen Hinweisen, die bei der Verwendung von Bild-Text-Paaren nicht vorhanden sind. In S4 nutzen wir die inhärente baumstrukturierte Hierarchie von HTML-Elementen und die räumliche Lokalisierung, um sorgfältig 10 Pre-Training-Aufgaben mit groß angelegten annotierten Daten zu entwerfen. Diese Aufgaben ähneln Downstream-Aufgaben in verschiedenen Domänen, und die Annotationen sind kostengünstig zu erhalten. Wir zeigen, dass im Vergleich zu aktuellen Screenshot-Pre-Training-Zielen unsere innovative Pre-Training-Methode die Leistung des Bild-zu-Text-Modells in neun verschiedenen und beliebten Downstream-Aufgaben signifikant verbessert - um bis zu 76,1 % bei der Tabellenerkennung und mindestens 1 % bei der Widget-Beschriftung.
English
We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel
pre-training paradigm for Vision-Language Models using data from large-scale
web screenshot rendering. Using web screenshots unlocks a treasure trove of
visual and textual cues that are not present in using image-text pairs. In S4,
we leverage the inherent tree-structured hierarchy of HTML elements and the
spatial localization to carefully design 10 pre-training tasks with large scale
annotated data. These tasks resemble downstream tasks across different domains
and the annotations are cheap to obtain. We demonstrate that, compared to
current screenshot pre-training objectives, our innovative pre-training method
significantly enhances performance of image-to-text model in nine varied and
popular downstream tasks - up to 76.1% improvements on Table Detection, and at
least 1% on Widget Captioning.