ChatPaper.aiChatPaper

Panda-70M: Het voorzien van bijschriften bij 70 miljoen video's met meerdere cross-modaliteit leraren

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

February 29, 2024
Auteurs: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

Samenvatting

De kwaliteit van de data en annotaties bepaalt de bovengrens voor de kwaliteit van een downstream model. Hoewel er grote tekstcorpora en beeld-tekstparen bestaan, is het veel moeilijker om hoogwaardige video-tekstdata te verzamelen. Ten eerste is handmatige labeling tijdrovender, omdat een annotator een volledige video moet bekijken. Ten tweede hebben video's een temporele dimensie, bestaande uit meerdere scènes die samengevoegd zijn en waarin meerdere acties worden getoond. Om een videodataset met hoogwaardige bijschriften te creëren, stellen we daarom een automatische aanpak voor die gebruikmaakt van multimodale invoer, zoals tekstuele videobeschrijvingen, ondertitels en individuele videoframes. Specifiek selecteren we 3,8 miljoen hoogwaardige video's uit het publiekelijk beschikbare HD-VILA-100M-dataset. We splitsen deze vervolgens in semantisch consistente videoclips en passen meerdere cross-modaliteit leraarmodellen toe om bijschriften voor elke video te verkrijgen. Vervolgens finetunen we een retrieval-model op een kleine subset waarin het beste bijschrift van elke video handmatig is geselecteerd, en gebruiken we dit model vervolgens op de volledige dataset om het beste bijschrift als annotatie te selecteren. Op deze manier verkrijgen we 70 miljoen video's die gepaard gaan met hoogwaardige tekstbijschriften. We noemen deze dataset Panda-70M. We tonen de waarde van de voorgestelde dataset aan voor drie downstream taken: videobijschrijving, video- en tekstretrieval, en tekstgestuurde videogeneratie. De modellen die getraind zijn op de voorgestelde data scoren aanzienlijk beter op de meeste metrieken voor alle taken.
English
The quality of the data and annotation upper-bounds the quality of a downstream model. While there exist large text corpora and image-text pairs, high-quality video-text data is much harder to collect. First of all, manual labeling is more time-consuming, as it requires an annotator to watch an entire video. Second, videos have a temporal dimension, consisting of several scenes stacked together, and showing multiple actions. Accordingly, to establish a video dataset with high-quality captions, we propose an automatic approach leveraging multimodal inputs, such as textual video description, subtitles, and individual video frames. Specifically, we curate 3.8M high-resolution videos from the publicly available HD-VILA-100M dataset. We then split them into semantically consistent video clips, and apply multiple cross-modality teacher models to obtain captions for each video. Next, we finetune a retrieval model on a small subset where the best caption of each video is manually selected and then employ the model in the whole dataset to select the best caption as the annotation. In this way, we get 70M videos paired with high-quality text captions. We dub the dataset as Panda-70M. We show the value of the proposed dataset on three downstream tasks: video captioning, video and text retrieval, and text-driven video generation. The models trained on the proposed data score substantially better on the majority of metrics across all the tasks.
PDF353February 8, 2026