Destilando Modelos de Visão e Linguagem em Milhões de Vídeos
Distilling Vision-Language Models on Millions of Videos
January 11, 2024
Autores: Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan
cs.AI
Resumo
O recente avanço em modelos de visão e linguagem é amplamente atribuído à abundância de dados de imagem-texto. Nosso objetivo é replicar esse sucesso para modelos de vídeo e linguagem, mas simplesmente não há dados suficientes de vídeo-texto curados por humanos disponíveis. Assim, recorremos ao ajuste fino de um modelo de vídeo e linguagem a partir de uma base sólida de imagem e linguagem com dados instrucionais sintetizados. O modelo de vídeo e linguagem resultante é então usado para rotular automaticamente milhões de vídeos, gerando legendas de alta qualidade. Mostramos que o modelo de vídeo e linguagem adaptado tem um bom desempenho em uma ampla gama de benchmarks de vídeo e linguagem. Por exemplo, ele supera o melhor resultado anterior no NExT-QA de resposta aberta em 2,8%. Além disso, nosso modelo gera descrições detalhadas para vídeos previamente não vistos, que fornecem uma supervisão textual melhor do que os métodos existentes. Experimentos mostram que um modelo de codificador duplo de vídeo e linguagem treinado de forma contrastiva nessas legendas geradas automaticamente é 3,8% melhor do que a linha de base mais forte que também aproveita modelos de visão e linguagem. Nosso melhor modelo supera os métodos state-of-the-art na tarefa de recuperação de texto para vídeo zero-shot do MSR-VTT em 6%.
English
The recent advance in vision-language models is largely attributed to the
abundance of image-text data. We aim to replicate this success for
video-language models, but there simply is not enough human-curated video-text
data available. We thus resort to fine-tuning a video-language model from a
strong image-language baseline with synthesized instructional data. The
resulting video-language model is then used to auto-label millions of videos to
generate high-quality captions. We show the adapted video-language model
performs well on a wide range of video-language benchmarks. For instance, it
surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our
model generates detailed descriptions for previously unseen videos, which
provide better textual supervision than existing methods. Experiments show that
a video-language dual-encoder model contrastively trained on these
auto-generated captions is 3.8% better than the strongest baseline that also
leverages vision-language models. Our best model outperforms state-of-the-art
methods on MSR-VTT zero-shot text-to-video retrieval by 6%.