Улучшение предварительного обучения видео-языковых моделей с использованием разнообразных методов надзора.
Enhancing Vision-Language Pre-training with Rich Supervisions
March 5, 2024
Авторы: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
cs.AI
Аннотация
Мы предлагаем метод Сильно Надзираемого предварительного обучения с использованием Скриншотов (S4) - новую парадигму предварительного обучения для Моделей Видение-Язык с использованием данных из масштабного рендеринга веб-скриншотов. Использование веб-скриншотов открывает сокровищницу визуальных и текстовых подсказок, которых нет при использовании пар изображение-текст. В S4 мы используем встроенную иерархию древовидной структуры элементов HTML и пространственную локализацию для тщательного разработки 10 предварительных задач с крупномасштабными аннотированными данными. Эти задачи напоминают задачи на следующем уровне в различных областях, и аннотации дешевы в получении. Мы демонстрируем, что по сравнению с текущими целями предварительного обучения на скриншотах, наш метод инновационного предварительного обучения значительно улучшает производительность модели изображение-текст в девяти разнообразных и популярных задачах на следующем уровне - до 76,1% улучшений в обнаружении таблиц и по крайней мере 1% в подписях виджетов.
English
We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel
pre-training paradigm for Vision-Language Models using data from large-scale
web screenshot rendering. Using web screenshots unlocks a treasure trove of
visual and textual cues that are not present in using image-text pairs. In S4,
we leverage the inherent tree-structured hierarchy of HTML elements and the
spatial localization to carefully design 10 pre-training tasks with large scale
annotated data. These tasks resemble downstream tasks across different domains
and the annotations are cheap to obtain. We demonstrate that, compared to
current screenshot pre-training objectives, our innovative pre-training method
significantly enhances performance of image-to-text model in nine varied and
popular downstream tasks - up to 76.1% improvements on Table Detection, and at
least 1% on Widget Captioning.