Distilación de Modelos de Visión-Lenguaje en Millones de Videos
Distilling Vision-Language Models on Millions of Videos
January 11, 2024
Autores: Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan
cs.AI
Resumen
El reciente avance en los modelos de visión y lenguaje se atribuye en gran medida a la abundancia de datos de imágenes y texto. Nuestro objetivo es replicar este éxito para los modelos de video y lenguaje, pero simplemente no hay suficientes datos de video-texto curados por humanos disponibles. Por lo tanto, recurrimos a ajustar un modelo de video y lenguaje a partir de una base sólida de imagen y lenguaje con datos instruccionales sintetizados. El modelo de video y lenguaje resultante se utiliza luego para etiquetar automáticamente millones de videos y generar subtítulos de alta calidad. Demostramos que el modelo de video y lenguaje adaptado funciona bien en una amplia gama de benchmarks de video y lenguaje. Por ejemplo, supera el mejor resultado previo en NExT-QA de respuesta abierta en un 2,8%. Además, nuestro modelo genera descripciones detalladas para videos previamente no vistos, lo que proporciona una supervisión textual mejor que los métodos existentes. Los experimentos muestran que un modelo de codificador dual de video y lenguaje entrenado de manera contrastiva con estos subtítulos generados automáticamente es un 3,8% mejor que la línea base más fuerte que también aprovecha los modelos de visión y lenguaje. Nuestro mejor modelo supera a los métodos más avanzados en la recuperación de texto a video sin entrenamiento previo (zero-shot) en MSR-VTT en un 6%.
English
The recent advance in vision-language models is largely attributed to the
abundance of image-text data. We aim to replicate this success for
video-language models, but there simply is not enough human-curated video-text
data available. We thus resort to fine-tuning a video-language model from a
strong image-language baseline with synthesized instructional data. The
resulting video-language model is then used to auto-label millions of videos to
generate high-quality captions. We show the adapted video-language model
performs well on a wide range of video-language benchmarks. For instance, it
surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our
model generates detailed descriptions for previously unseen videos, which
provide better textual supervision than existing methods. Experiments show that
a video-language dual-encoder model contrastively trained on these
auto-generated captions is 3.8% better than the strongest baseline that also
leverages vision-language models. Our best model outperforms state-of-the-art
methods on MSR-VTT zero-shot text-to-video retrieval by 6%.