ChatPaper.aiChatPaper

Miglioramento del Pre-addestramento Visione-Linguaggio con Supervisioni Ricche

Enhancing Vision-Language Pre-training with Rich Supervisions

March 5, 2024
Autori: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
cs.AI

Abstract

Proponiamo il pre-addestramento Fortemente Supervisionato con Screenshot (S4) - un nuovo paradigma di pre-addestramento per modelli visione-linguaggio che utilizza dati provenienti dal rendering su larga scala di screenshot web. L'uso di screenshot web sblocca un tesoro di indizi visivi e testuali che non sono presenti nelle coppie immagine-testo. In S4, sfruttiamo la gerarchia intrinsecamente ad albero degli elementi HTML e la localizzazione spaziale per progettare con cura 10 task di pre-addestramento con dati annotati su larga scala. Questi task assomigliano a task downstream in diversi domini e le annotazioni sono economiche da ottenere. Dimostriamo che, rispetto agli obiettivi attuali di pre-addestramento con screenshot, il nostro metodo innovativo di pre-addestramento migliora significativamente le prestazioni del modello immagine-testo in nove task downstream vari e popolari - con miglioramenti fino al 76,1% nel Rilevamento di Tabelle e almeno l'1% nella Didascalia di Widget.
English
We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel pre-training paradigm for Vision-Language Models using data from large-scale web screenshot rendering. Using web screenshots unlocks a treasure trove of visual and textual cues that are not present in using image-text pairs. In S4, we leverage the inherent tree-structured hierarchy of HTML elements and the spatial localization to carefully design 10 pre-training tasks with large scale annotated data. These tasks resemble downstream tasks across different domains and the annotations are cheap to obtain. We demonstrate that, compared to current screenshot pre-training objectives, our innovative pre-training method significantly enhances performance of image-to-text model in nine varied and popular downstream tasks - up to 76.1% improvements on Table Detection, and at least 1% on Widget Captioning.
PDF171February 7, 2026