ChatPaper.aiChatPaper

Distilleren van Vision-Language Modellen op Miljoenen Video's

Distilling Vision-Language Models on Millions of Videos

January 11, 2024
Auteurs: Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan
cs.AI

Samenvatting

De recente vooruitgang in visie-taalmodelen is grotendeels te danken aan de overvloed aan beeld-tekstgegevens. Ons doel is om dit succes te repliceren voor video-taalmodelen, maar er is simpelweg niet genoeg door mensen samengestelde video-tekstdata beschikbaar. Daarom nemen we onze toevlucht tot het fine-tunen van een video-taalmodel vanuit een sterk beeld-taalbasislijn met gesynthetiseerde instructiedata. Het resulterende video-taalmodel wordt vervolgens gebruikt om miljoenen video's automatisch te labelen om hoogwaardige bijschriften te genereren. We laten zien dat het aangepaste video-taalmodel goed presteert op een breed scala aan video-taalbenchmarks. Zo overtreft het het beste eerdere resultaat op open-ended NExT-QA met 2,8%. Daarnaast genereert ons model gedetailleerde beschrijvingen voor voorheen onbekende video's, die betere tekstuele supervisie bieden dan bestaande methoden. Experimenten tonen aan dat een video-taal dual-encoder-model dat contrastief is getraind op deze automatisch gegenereerde bijschriften 3,8% beter presteert dan de sterkste basislijn die ook gebruikmaakt van visie-taalmodelen. Ons beste model overtreft state-of-the-art methoden op MSR-VTT zero-shot tekst-naar-video-retrieval met 6%.
English
The recent advance in vision-language models is largely attributed to the abundance of image-text data. We aim to replicate this success for video-language models, but there simply is not enough human-curated video-text data available. We thus resort to fine-tuning a video-language model from a strong image-language baseline with synthesized instructional data. The resulting video-language model is then used to auto-label millions of videos to generate high-quality captions. We show the adapted video-language model performs well on a wide range of video-language benchmarks. For instance, it surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our model generates detailed descriptions for previously unseen videos, which provide better textual supervision than existing methods. Experiments show that a video-language dual-encoder model contrastively trained on these auto-generated captions is 3.8% better than the strongest baseline that also leverages vision-language models. Our best model outperforms state-of-the-art methods on MSR-VTT zero-shot text-to-video retrieval by 6%.
PDF180February 8, 2026