Panda-70M: Didascalizzazione di 70 milioni di video con insegnanti multimodali incrociati
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
February 29, 2024
Autori: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
Abstract
La qualità dei dati e delle annotazioni determina il limite superiore della qualità di un modello downstream. Sebbene esistano ampi corpora testuali e coppie immagine-testo, i dati video-testo di alta qualità sono molto più difficili da raccogliere. Innanzitutto, l'etichettatura manuale è più dispendiosa in termini di tempo, poiché richiede che un annotatore guardi l'intero video. In secondo luogo, i video hanno una dimensione temporale, composta da diverse scene concatenate e che mostrano molteplici azioni. Di conseguenza, per creare un dataset video con didascalie di alta qualità, proponiamo un approccio automatico che sfrutta input multimodali, come la descrizione testuale del video, i sottotitoli e i singoli fotogrammi video. Nello specifico, selezioniamo 3,8 milioni di video ad alta risoluzione dal dataset HD-VILA-100M, disponibile pubblicamente. Successivamente, li suddividiamo in clip video semanticamente coerenti e applichiamo diversi modelli insegnanti cross-modalità per ottenere didascalie per ciascun video. Poi, ottimizziamo un modello di retrieval su un piccolo sottoinsieme in cui la migliore didascalia di ciascun video viene selezionata manualmente e utilizziamo il modello sull'intero dataset per selezionare la migliore didascalia come annotazione. In questo modo, otteniamo 70 milioni di video associati a didascalie testuali di alta qualità. Abbiamo denominato questo dataset Panda-70M. Dimostriamo il valore del dataset proposto su tre task downstream: generazione di didascalie video, retrieval video e testo, e generazione video guidata da testo. I modelli addestrati sui dati proposti ottengono punteggi significativamente migliori sulla maggior parte delle metriche in tutti i task.
English
The quality of the data and annotation upper-bounds the quality of a
downstream model. While there exist large text corpora and image-text pairs,
high-quality video-text data is much harder to collect. First of all, manual
labeling is more time-consuming, as it requires an annotator to watch an entire
video. Second, videos have a temporal dimension, consisting of several scenes
stacked together, and showing multiple actions. Accordingly, to establish a
video dataset with high-quality captions, we propose an automatic approach
leveraging multimodal inputs, such as textual video description, subtitles, and
individual video frames. Specifically, we curate 3.8M high-resolution videos
from the publicly available HD-VILA-100M dataset. We then split them into
semantically consistent video clips, and apply multiple cross-modality teacher
models to obtain captions for each video. Next, we finetune a retrieval model
on a small subset where the best caption of each video is manually selected and
then employ the model in the whole dataset to select the best caption as the
annotation. In this way, we get 70M videos paired with high-quality text
captions. We dub the dataset as Panda-70M. We show the value of the proposed
dataset on three downstream tasks: video captioning, video and text retrieval,
and text-driven video generation. The models trained on the proposed data score
substantially better on the majority of metrics across all the tasks.