ChatPaper.aiChatPaper

Verbetering van Vision-Language Pre-training met Rijke Supervisie

Enhancing Vision-Language Pre-training with Rich Supervisions

March 5, 2024
Auteurs: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
cs.AI

Samenvatting

We stellen Strongly Supervised pre-training met Screenshots (S4) voor - een nieuw pre-trainingsparadigma voor Vision-Language Modellen met behulp van gegevens uit grootschalige web-screenshotrendering. Het gebruik van web-screenshots ontsluit een schat aan visuele en tekstuele aanwijzingen die niet aanwezig zijn bij het gebruik van beeld-tekstparen. In S4 benutten we de inherente boomstructuurhiërarchie van HTML-elementen en de ruimtelijke lokalisatie om zorgvuldig 10 pre-trainings taken te ontwerpen met grootschalige geannoteerde gegevens. Deze taken lijken op downstream taken in verschillende domeinen en de annotaties zijn goedkoop te verkrijgen. We tonen aan dat, in vergelijking met huidige pre-trainingsdoelstellingen voor screenshots, onze innovatieve pre-trainingsmethode de prestaties van beeld-naar-tekstmodellen aanzienlijk verbetert in negen uiteenlopende en populaire downstream taken - tot 76,1% verbetering bij Tabeldetectie, en minimaal 1% bij Widget Captioning.
English
We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel pre-training paradigm for Vision-Language Models using data from large-scale web screenshot rendering. Using web screenshots unlocks a treasure trove of visual and textual cues that are not present in using image-text pairs. In S4, we leverage the inherent tree-structured hierarchy of HTML elements and the spatial localization to carefully design 10 pre-training tasks with large scale annotated data. These tasks resemble downstream tasks across different domains and the annotations are cheap to obtain. We demonstrate that, compared to current screenshot pre-training objectives, our innovative pre-training method significantly enhances performance of image-to-text model in nine varied and popular downstream tasks - up to 76.1% improvements on Table Detection, and at least 1% on Widget Captioning.
PDF171February 7, 2026