ChatPaper.aiChatPaper

Amélioration du pré-entraînement vision-langage grâce à des supervisions riches

Enhancing Vision-Language Pre-training with Rich Supervisions

March 5, 2024
Auteurs: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
cs.AI

Résumé

Nous proposons le pré-entraînement Fortement Supervisé avec Captures d'Écran (S4) - un nouveau paradigme de pré-entraînement pour les modèles vision-langage utilisant des données issues du rendu à grande échelle de captures d'écran web. L'utilisation de captures d'écran web débloque un trésor d'indices visuels et textuels qui ne sont pas présents dans les paires image-texte. Dans S4, nous exploitons la hiérarchie arborescente inhérente des éléments HTML et la localisation spatiale pour concevoir soigneusement 10 tâches de pré-entraînement avec des données annotées à grande échelle. Ces tâches ressemblent à des tâches en aval dans différents domaines et les annotations sont peu coûteuses à obtenir. Nous démontrons que, par rapport aux objectifs actuels de pré-entraînement sur captures d'écran, notre méthode innovante de pré-entraînement améliore significativement les performances d'un modèle image-texte sur neuf tâches en aval variées et populaires - jusqu'à 76,1% d'amélioration sur la Détection de Tableaux, et au moins 1% sur la Légendage de Widgets.
English
We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel pre-training paradigm for Vision-Language Models using data from large-scale web screenshot rendering. Using web screenshots unlocks a treasure trove of visual and textual cues that are not present in using image-text pairs. In S4, we leverage the inherent tree-structured hierarchy of HTML elements and the spatial localization to carefully design 10 pre-training tasks with large scale annotated data. These tasks resemble downstream tasks across different domains and the annotations are cheap to obtain. We demonstrate that, compared to current screenshot pre-training objectives, our innovative pre-training method significantly enhances performance of image-to-text model in nine varied and popular downstream tasks - up to 76.1% improvements on Table Detection, and at least 1% on Widget Captioning.
PDF171December 15, 2024