Panda-70M: Subtitulación de 70 millones de videos con múltiples maestros de cruce de modalidades
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
February 29, 2024
Autores: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
Resumen
La calidad de los datos y las anotaciones establece el límite superior de la calidad de un modelo descendente. Aunque existen grandes corpus de texto y pares de imagen-texto, los datos de video-texto de alta calidad son mucho más difíciles de recopilar. En primer lugar, el etiquetado manual es más lento, ya que requiere que un anotador vea un video completo. En segundo lugar, los videos tienen una dimensión temporal, compuesta por varias escenas apiladas y que muestran múltiples acciones. En consecuencia, para crear un conjunto de datos de video con subtítulos de alta calidad, proponemos un enfoque automático que aprovecha entradas multimodales, como la descripción textual del video, los subtítulos y los fotogramas individuales del video. Específicamente, seleccionamos 3.8 millones de videos de alta resolución del conjunto de datos HD-VILA-100M, disponible públicamente. Luego, los dividimos en clips de video semánticamente consistentes y aplicamos múltiples modelos docentes de cross-modalidad para obtener subtítulos para cada video. A continuación, ajustamos un modelo de recuperación en un pequeño subconjunto donde se selecciona manualmente el mejor subtítulo de cada video y luego empleamos el modelo en todo el conjunto de datos para seleccionar el mejor subtítulo como anotación. De esta manera, obtenemos 70 millones de videos emparejados con subtítulos de texto de alta calidad. Denominamos a este conjunto de datos Panda-70M. Demostramos el valor del conjunto de datos propuesto en tres tareas descendentes: subtitulación de videos, recuperación de video y texto, y generación de video impulsada por texto. Los modelos entrenados con los datos propuestos obtienen puntuaciones sustancialmente mejores en la mayoría de las métricas en todas las tareas.
English
The quality of the data and annotation upper-bounds the quality of a
downstream model. While there exist large text corpora and image-text pairs,
high-quality video-text data is much harder to collect. First of all, manual
labeling is more time-consuming, as it requires an annotator to watch an entire
video. Second, videos have a temporal dimension, consisting of several scenes
stacked together, and showing multiple actions. Accordingly, to establish a
video dataset with high-quality captions, we propose an automatic approach
leveraging multimodal inputs, such as textual video description, subtitles, and
individual video frames. Specifically, we curate 3.8M high-resolution videos
from the publicly available HD-VILA-100M dataset. We then split them into
semantically consistent video clips, and apply multiple cross-modality teacher
models to obtain captions for each video. Next, we finetune a retrieval model
on a small subset where the best caption of each video is manually selected and
then employ the model in the whole dataset to select the best caption as the
annotation. In this way, we get 70M videos paired with high-quality text
captions. We dub the dataset as Panda-70M. We show the value of the proposed
dataset on three downstream tasks: video captioning, video and text retrieval,
and text-driven video generation. The models trained on the proposed data score
substantially better on the majority of metrics across all the tasks.