Destillieren von Vision-Sprache-Modellen anhand von Millionen von Videos
Distilling Vision-Language Models on Millions of Videos
January 11, 2024
Autoren: Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan
cs.AI
Zusammenfassung
Der jüngste Fortschritt bei Vision-Sprache-Modellen ist weitgehend auf die Fülle von Bild-Text-Daten zurückzuführen. Unser Ziel ist es, diesen Erfolg auf Video-Sprache-Modelle zu übertragen, doch es gibt einfach nicht genügend von Menschen kuratierte Video-Text-Daten. Daher greifen wir auf die Feinabstimmung eines Video-Sprache-Modells von einer starken Bild-Sprache-Basislinie mit synthetisierten Instruktionsdaten zurück. Das resultierende Video-Sprache-Modell wird dann verwendet, um Millionen von Videos automatisch zu beschriften und hochwertige Untertitel zu generieren. Wir zeigen, dass das angepasste Video-Sprache-Modell bei einer Vielzahl von Video-Sprache-Benchmarks gut abschneidet. Beispielsweise übertrifft es das bisher beste Ergebnis bei NExT-QA mit offenem Ende um 2,8 %. Darüber hinaus generiert unser Modell detaillierte Beschreibungen für zuvor unbekannte Videos, die eine bessere textuelle Supervision bieten als bestehende Methoden. Experimente zeigen, dass ein Video-Sprache-Dual-Encoder-Modell, das kontrastiv auf diesen automatisch generierten Untertiteln trainiert wird, 3,8 % besser abschneidet als die stärkste Baseline, die ebenfalls Vision-Sprache-Modelle nutzt. Unser bestes Modell übertrifft die state-of-the-art Methoden bei der Null-Shot-Text-zu-Video-Retrieval auf MSR-VTT um 6 %.
English
The recent advance in vision-language models is largely attributed to the
abundance of image-text data. We aim to replicate this success for
video-language models, but there simply is not enough human-curated video-text
data available. We thus resort to fine-tuning a video-language model from a
strong image-language baseline with synthesized instructional data. The
resulting video-language model is then used to auto-label millions of videos to
generate high-quality captions. We show the adapted video-language model
performs well on a wide range of video-language benchmarks. For instance, it
surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our
model generates detailed descriptions for previously unseen videos, which
provide better textual supervision than existing methods. Experiments show that
a video-language dual-encoder model contrastively trained on these
auto-generated captions is 3.8% better than the strongest baseline that also
leverages vision-language models. Our best model outperforms state-of-the-art
methods on MSR-VTT zero-shot text-to-video retrieval by 6%.