Aprimorando o Pré-treinamento Visão-Linguagem com Supervisões Ricas

Resumo

Propomos o pré-treinamento Fortemente Supervisionado com Capturas de Tela (S4) - um novo paradigma de pré-treinamento para Modelos de Visão e Linguagem utilizando dados de renderização em larga escala de capturas de tela da web. O uso de capturas de tela da web desbloqueia um tesouro de pistas visuais e textuais que não estão presentes em pares de imagem-texto. No S4, aproveitamos a hierarquia inerentemente estruturada em árvore dos elementos HTML e a localização espacial para projetar cuidadosamente 10 tarefas de pré-treinamento com dados anotados em grande escala. Essas tarefas se assemelham a tarefas subsequentes em diferentes domínios e as anotações são de baixo custo para obtenção. Demonstramos que, em comparação com os objetivos atuais de pré-treinamento com capturas de tela, nosso método inovador de pré-treinamento melhora significativamente o desempenho do modelo de imagem para texto em nove tarefas subsequentes variadas e populares - com melhorias de até 76,1% na Detecção de Tabelas e pelo menos 1% na Legendagem de Widgets.

English

We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel pre-training paradigm for Vision-Language Models using data from large-scale web screenshot rendering. Using web screenshots unlocks a treasure trove of visual and textual cues that are not present in using image-text pairs. In S4, we leverage the inherent tree-structured hierarchy of HTML elements and the spatial localization to carefully design 10 pre-training tasks with large scale annotated data. These tasks resemble downstream tasks across different domains and the annotations are cheap to obtain. We demonstrate that, compared to current screenshot pre-training objectives, our innovative pre-training method significantly enhances performance of image-to-text model in nine varied and popular downstream tasks - up to 76.1% improvements on Table Detection, and at least 1% on Widget Captioning.

Aprimorando o Pré-treinamento Visão-Linguagem com Supervisões Ricas

Enhancing Vision-Language Pre-training with Rich Supervisions

Resumo

Support