ChatPaper.aiChatPaper

Distillation de modèles vision-langage sur des millions de vidéos

Distilling Vision-Language Models on Millions of Videos

January 11, 2024
Auteurs: Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan
cs.AI

Résumé

Les progrès récents des modèles vision-langage sont largement attribuables à l'abondance de données image-texte. Notre objectif est de reproduire ce succès pour les modèles vidéo-langage, mais il n'existe tout simplement pas assez de données vidéo-texte annotées manuellement. Nous avons donc recours à l'affinage d'un modèle vidéo-langage à partir d'une base solide de modèle image-langage, en utilisant des données synthétiques d'instructions. Le modèle vidéo-langage résultant est ensuite utilisé pour étiqueter automatiquement des millions de vidéos afin de générer des légendes de haute qualité. Nous montrons que le modèle vidéo-langage adapté performe bien sur une large gamme de benchmarks vidéo-langage. Par exemple, il dépasse le meilleur résultat précédent sur NExT-QA à réponse ouverte de 2,8 %. De plus, notre modèle génère des descriptions détaillées pour des vidéos jamais vues auparavant, fournissant une supervision textuelle de meilleure qualité que les méthodes existantes. Les expériences montrent qu'un modèle à double encodeur vidéo-langage entraîné de manière contrastive sur ces légendes auto-générées est 3,8 % meilleur que le meilleur modèle de référence qui exploite également des modèles vision-langage. Notre meilleur modèle surpasse les méthodes de pointe sur la tâche de recherche zéro-shot texte-vidéo de MSR-VTT de 6 %.
English
The recent advance in vision-language models is largely attributed to the abundance of image-text data. We aim to replicate this success for video-language models, but there simply is not enough human-curated video-text data available. We thus resort to fine-tuning a video-language model from a strong image-language baseline with synthesized instructional data. The resulting video-language model is then used to auto-label millions of videos to generate high-quality captions. We show the adapted video-language model performs well on a wide range of video-language benchmarks. For instance, it surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our model generates detailed descriptions for previously unseen videos, which provide better textual supervision than existing methods. Experiments show that a video-language dual-encoder model contrastively trained on these auto-generated captions is 3.8% better than the strongest baseline that also leverages vision-language models. Our best model outperforms state-of-the-art methods on MSR-VTT zero-shot text-to-video retrieval by 6%.
PDF170December 15, 2024