ChatPaper.aiChatPaper

Mejorando el preentrenamiento visión-lenguaje con supervisiones enriquecidas

Enhancing Vision-Language Pre-training with Rich Supervisions

March 5, 2024
Autores: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
cs.AI

Resumen

Proponemos el pre-entrenamiento Fuertemente Supervisado con Capturas de Pantalla (S4), un nuevo paradigma de pre-entrenamiento para Modelos de Visión-Lenguaje utilizando datos de renderizado a gran escala de capturas de pantalla web. El uso de capturas de pantalla web desbloquea un tesoro de señales visuales y textuales que no están presentes en los pares imagen-texto. En S4, aprovechamos la jerarquía inherente de estructura de árbol de los elementos HTML y la localización espacial para diseñar cuidadosamente 10 tareas de pre-entrenamiento con datos anotados a gran escala. Estas tareas se asemejan a tareas posteriores en diferentes dominios y las anotaciones son económicas de obtener. Demostramos que, en comparación con los objetivos actuales de pre-entrenamiento con capturas de pantalla, nuestro método innovador de pre-entrenamiento mejora significativamente el rendimiento del modelo de imagen a texto en nueve tareas posteriores variadas y populares, con mejoras de hasta el 76.1% en Detección de Tablas y al menos un 1% en Subtitulación de Widgets.
English
We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel pre-training paradigm for Vision-Language Models using data from large-scale web screenshot rendering. Using web screenshots unlocks a treasure trove of visual and textual cues that are not present in using image-text pairs. In S4, we leverage the inherent tree-structured hierarchy of HTML elements and the spatial localization to carefully design 10 pre-training tasks with large scale annotated data. These tasks resemble downstream tasks across different domains and the annotations are cheap to obtain. We demonstrate that, compared to current screenshot pre-training objectives, our innovative pre-training method significantly enhances performance of image-to-text model in nine varied and popular downstream tasks - up to 76.1% improvements on Table Detection, and at least 1% on Widget Captioning.
PDF171December 15, 2024