Die Verbesserung der Vorabtrainierung von Vision-Sprache mit reichen Aufsichtsmaßnahmen.

papers.abstract

Wir schlagen Strongly Supervised Pre-Training mit Screenshots (S4) vor - ein neuartiges Pre-Training-Paradigma für Vision-Language-Modelle unter Verwendung von Daten aus der groß angelegten Web-Screenshot-Erstellung. Die Verwendung von Web-Screenshots erschließt eine Fülle von visuellen und textuellen Hinweisen, die bei der Verwendung von Bild-Text-Paaren nicht vorhanden sind. In S4 nutzen wir die inhärente baumstrukturierte Hierarchie von HTML-Elementen und die räumliche Lokalisierung, um sorgfältig 10 Pre-Training-Aufgaben mit groß angelegten annotierten Daten zu entwerfen. Diese Aufgaben ähneln Downstream-Aufgaben in verschiedenen Domänen, und die Annotationen sind kostengünstig zu erhalten. Wir zeigen, dass im Vergleich zu aktuellen Screenshot-Pre-Training-Zielen unsere innovative Pre-Training-Methode die Leistung des Bild-zu-Text-Modells in neun verschiedenen und beliebten Downstream-Aufgaben signifikant verbessert - um bis zu 76,1 % bei der Tabellenerkennung und mindestens 1 % bei der Widget-Beschriftung.

English

We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel pre-training paradigm for Vision-Language Models using data from large-scale web screenshot rendering. Using web screenshots unlocks a treasure trove of visual and textual cues that are not present in using image-text pairs. In S4, we leverage the inherent tree-structured hierarchy of HTML elements and the spatial localization to carefully design 10 pre-training tasks with large scale annotated data. These tasks resemble downstream tasks across different domains and the annotations are cheap to obtain. We demonstrate that, compared to current screenshot pre-training objectives, our innovative pre-training method significantly enhances performance of image-to-text model in nine varied and popular downstream tasks - up to 76.1% improvements on Table Detection, and at least 1% on Widget Captioning.

Die Verbesserung der Vorabtrainierung von Vision-Sprache mit reichen Aufsichtsmaßnahmen.

Enhancing Vision-Language Pre-training with Rich Supervisions

papers.abstract

Support