ChatPaper.aiChatPaper

Panda-70M: Legendando 70 Milhões de Vídeos com Múltiplos Professores de Cross-Modalidade

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

February 29, 2024
Autores: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

Resumo

A qualidade dos dados e das anotações define o limite superior da qualidade de um modelo subsequente. Embora existam grandes corpora de texto e pares de imagem-texto, dados de vídeo-texto de alta qualidade são muito mais difíceis de coletar. Primeiramente, a rotulagem manual é mais demorada, pois exige que um anotador assista a um vídeo inteiro. Em segundo lugar, os vídeos possuem uma dimensão temporal, consistindo em várias cenas empilhadas e mostrando múltiplas ações. Assim, para criar um conjunto de dados de vídeo com legendas de alta qualidade, propomos uma abordagem automática que aproveita entradas multimodais, como descrição textual do vídeo, legendas e quadros individuais do vídeo. Especificamente, selecionamos 3,8 milhões de vídeos de alta resolução do conjunto de dados publicamente disponível HD-VILA-100M. Em seguida, dividimos esses vídeos em clipes semanticamente consistentes e aplicamos múltiplos modelos de professor de cross-modalidade para obter legendas para cada vídeo. Depois, ajustamos um modelo de recuperação em um pequeno subconjunto onde a melhor legenda de cada vídeo é selecionada manualmente e, em seguida, empregamos o modelo em todo o conjunto de dados para selecionar a melhor legenda como anotação. Dessa forma, obtemos 70 milhões de vídeos pareados com legendas de texto de alta qualidade. Denominamos esse conjunto de dados como Panda-70M. Demonstramos o valor do conjunto de dados proposto em três tarefas subsequentes: legendagem de vídeo, recuperação de vídeo e texto, e geração de vídeo orientada por texto. Os modelos treinados com os dados propostos obtêm pontuações substancialmente melhores na maioria das métricas em todas as tarefas.
English
The quality of the data and annotation upper-bounds the quality of a downstream model. While there exist large text corpora and image-text pairs, high-quality video-text data is much harder to collect. First of all, manual labeling is more time-consuming, as it requires an annotator to watch an entire video. Second, videos have a temporal dimension, consisting of several scenes stacked together, and showing multiple actions. Accordingly, to establish a video dataset with high-quality captions, we propose an automatic approach leveraging multimodal inputs, such as textual video description, subtitles, and individual video frames. Specifically, we curate 3.8M high-resolution videos from the publicly available HD-VILA-100M dataset. We then split them into semantically consistent video clips, and apply multiple cross-modality teacher models to obtain captions for each video. Next, we finetune a retrieval model on a small subset where the best caption of each video is manually selected and then employ the model in the whole dataset to select the best caption as the annotation. In this way, we get 70M videos paired with high-quality text captions. We dub the dataset as Panda-70M. We show the value of the proposed dataset on three downstream tasks: video captioning, video and text retrieval, and text-driven video generation. The models trained on the proposed data score substantially better on the majority of metrics across all the tasks.
PDF353February 8, 2026