Verbetering van Vision-Language Pre-training met Rijke Supervisie
Enhancing Vision-Language Pre-training with Rich Supervisions
March 5, 2024
Auteurs: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
cs.AI
Samenvatting
We stellen Strongly Supervised pre-training met Screenshots (S4) voor - een nieuw pre-trainingsparadigma voor Vision-Language Modellen met behulp van gegevens uit grootschalige web-screenshotrendering. Het gebruik van web-screenshots ontsluit een schat aan visuele en tekstuele aanwijzingen die niet aanwezig zijn bij het gebruik van beeld-tekstparen. In S4 benutten we de inherente boomstructuurhiërarchie van HTML-elementen en de ruimtelijke lokalisatie om zorgvuldig 10 pre-trainings taken te ontwerpen met grootschalige geannoteerde gegevens. Deze taken lijken op downstream taken in verschillende domeinen en de annotaties zijn goedkoop te verkrijgen. We tonen aan dat, in vergelijking met huidige pre-trainingsdoelstellingen voor screenshots, onze innovatieve pre-trainingsmethode de prestaties van beeld-naar-tekstmodellen aanzienlijk verbetert in negen uiteenlopende en populaire downstream taken - tot 76,1% verbetering bij Tabeldetectie, en minimaal 1% bij Widget Captioning.
English
We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel
pre-training paradigm for Vision-Language Models using data from large-scale
web screenshot rendering. Using web screenshots unlocks a treasure trove of
visual and textual cues that are not present in using image-text pairs. In S4,
we leverage the inherent tree-structured hierarchy of HTML elements and the
spatial localization to carefully design 10 pre-training tasks with large scale
annotated data. These tasks resemble downstream tasks across different domains
and the annotations are cheap to obtain. We demonstrate that, compared to
current screenshot pre-training objectives, our innovative pre-training method
significantly enhances performance of image-to-text model in nine varied and
popular downstream tasks - up to 76.1% improvements on Table Detection, and at
least 1% on Widget Captioning.