Distillazione di Modelli Visione-Linguaggio su Milioni di Video
Distilling Vision-Language Models on Millions of Videos
January 11, 2024
Autori: Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan
cs.AI
Abstract
Il recente progresso nei modelli visione-linguaggio è largamente attribuito all'abbondanza di dati immagine-testo. Il nostro obiettivo è replicare questo successo per i modelli video-linguaggio, ma semplicemente non ci sono abbastanza dati video-testo curati dall'uomo disponibili. Abbiamo quindi optato per il fine-tuning di un modello video-linguaggio partendo da una solida baseline immagine-linguaggio con dati sintetici di tipo istruzionale. Il modello video-linguaggio risultante viene poi utilizzato per etichettare automaticamente milioni di video e generare didascalie di alta qualità. Dimostriamo che il modello video-linguaggio adattato performa bene su un'ampia gamma di benchmark video-linguaggio. Ad esempio, supera il miglior risultato precedente su NExT-QA a risposta aperta del 2,8%. Inoltre, il nostro modello genera descrizioni dettagliate per video mai visti prima, fornendo una supervisione testuale migliore rispetto ai metodi esistenti. Gli esperimenti mostrano che un modello dual-encoder video-linguaggio addestrato in modo contrastivo su queste didascalie auto-generate è del 3,8% migliore rispetto alla baseline più forte che sfrutta anch'essa modelli visione-linguaggio. Il nostro modello migliore supera i metodi state-of-the-art su MSR-VTT nel recupero testo-video zero-shot del 6%.
English
The recent advance in vision-language models is largely attributed to the
abundance of image-text data. We aim to replicate this success for
video-language models, but there simply is not enough human-curated video-text
data available. We thus resort to fine-tuning a video-language model from a
strong image-language baseline with synthesized instructional data. The
resulting video-language model is then used to auto-label millions of videos to
generate high-quality captions. We show the adapted video-language model
performs well on a wide range of video-language benchmarks. For instance, it
surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our
model generates detailed descriptions for previously unseen videos, which
provide better textual supervision than existing methods. Experiments show that
a video-language dual-encoder model contrastively trained on these
auto-generated captions is 3.8% better than the strongest baseline that also
leverages vision-language models. Our best model outperforms state-of-the-art
methods on MSR-VTT zero-shot text-to-video retrieval by 6%.