ChatPaper.aiChatPaper

Panda-70M: Подписывание 70 млн видеороликов с использованием нескольких учителей между модальностями

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

February 29, 2024
Авторы: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

Аннотация

Качество данных и аннотации ограничивает качество последующей модели. В то время как существуют большие корпусы текста и пары изображение-текст, собрать высококачественные видео-текстовые данные гораздо сложнее. Во-первых, ручная разметка требует больше времени, поскольку аннотатор должен просмотреть всё видео. Во-вторых, видео имеют временное измерение, состоящее из нескольких сцен, собранных вместе, и показывающих несколько действий. С учётом этого, для создания набора данных видео с высококачественными подписями мы предлагаем автоматический подход, используя мультимодальные входные данные, такие как текстовое описание видео, субтитры и отдельные кадры видео. Конкретно, мы подбираем 3,8 миллиона видео высокого разрешения из публично доступного набора данных HD-VILA-100M. Затем мы разбиваем их на семантически согласованные видео-клипы и применяем несколько моделей учителей межмодальности для получения подписей для каждого видео. Затем мы донастраиваем модель поиска по небольшому подмножеству, где лучшая подпись для каждого видео выбирается вручную, и затем применяем модель ко всему набору данных для выбора лучшей подписи в качестве аннотации. Таким образом, мы получаем 70 миллионов видео, сопоставленных с высококачественными текстовыми подписями. Мы называем этот набор данных Panda-70M. Мы демонстрируем ценность предложенного набора данных на трёх последующих задачах: описании видео, поиске видео и текста, и генерации видео на основе текста. Модели, обученные на предложенных данных, показывают значительно лучшие результаты по большинству метрик во всех задачах.
English
The quality of the data and annotation upper-bounds the quality of a downstream model. While there exist large text corpora and image-text pairs, high-quality video-text data is much harder to collect. First of all, manual labeling is more time-consuming, as it requires an annotator to watch an entire video. Second, videos have a temporal dimension, consisting of several scenes stacked together, and showing multiple actions. Accordingly, to establish a video dataset with high-quality captions, we propose an automatic approach leveraging multimodal inputs, such as textual video description, subtitles, and individual video frames. Specifically, we curate 3.8M high-resolution videos from the publicly available HD-VILA-100M dataset. We then split them into semantically consistent video clips, and apply multiple cross-modality teacher models to obtain captions for each video. Next, we finetune a retrieval model on a small subset where the best caption of each video is manually selected and then employ the model in the whole dataset to select the best caption as the annotation. In this way, we get 70M videos paired with high-quality text captions. We dub the dataset as Panda-70M. We show the value of the proposed dataset on three downstream tasks: video captioning, video and text retrieval, and text-driven video generation. The models trained on the proposed data score substantially better on the majority of metrics across all the tasks.
PDF353December 15, 2024