Aprimorando o Pré-treinamento Visão-Linguagem com Supervisões Ricas
Enhancing Vision-Language Pre-training with Rich Supervisions
March 5, 2024
Autores: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
cs.AI
Resumo
Propomos o pré-treinamento Fortemente Supervisionado com Capturas de Tela (S4) - um novo paradigma de pré-treinamento para Modelos de Visão e Linguagem utilizando dados de renderização em larga escala de capturas de tela da web. O uso de capturas de tela da web desbloqueia um tesouro de pistas visuais e textuais que não estão presentes em pares de imagem-texto. No S4, aproveitamos a hierarquia inerentemente estruturada em árvore dos elementos HTML e a localização espacial para projetar cuidadosamente 10 tarefas de pré-treinamento com dados anotados em grande escala. Essas tarefas se assemelham a tarefas subsequentes em diferentes domínios e as anotações são de baixo custo para obtenção. Demonstramos que, em comparação com os objetivos atuais de pré-treinamento com capturas de tela, nosso método inovador de pré-treinamento melhora significativamente o desempenho do modelo de imagem para texto em nove tarefas subsequentes variadas e populares - com melhorias de até 76,1% na Detecção de Tabelas e pelo menos 1% na Legendagem de Widgets.
English
We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel
pre-training paradigm for Vision-Language Models using data from large-scale
web screenshot rendering. Using web screenshots unlocks a treasure trove of
visual and textual cues that are not present in using image-text pairs. In S4,
we leverage the inherent tree-structured hierarchy of HTML elements and the
spatial localization to carefully design 10 pre-training tasks with large scale
annotated data. These tasks resemble downstream tasks across different domains
and the annotations are cheap to obtain. We demonstrate that, compared to
current screenshot pre-training objectives, our innovative pre-training method
significantly enhances performance of image-to-text model in nine varied and
popular downstream tasks - up to 76.1% improvements on Table Detection, and at
least 1% on Widget Captioning.