Distilación de Modelos de Visión-Lenguaje en Millones de Videos

Resumen

El reciente avance en los modelos de visión y lenguaje se atribuye en gran medida a la abundancia de datos de imágenes y texto. Nuestro objetivo es replicar este éxito para los modelos de video y lenguaje, pero simplemente no hay suficientes datos de video-texto curados por humanos disponibles. Por lo tanto, recurrimos a ajustar un modelo de video y lenguaje a partir de una base sólida de imagen y lenguaje con datos instruccionales sintetizados. El modelo de video y lenguaje resultante se utiliza luego para etiquetar automáticamente millones de videos y generar subtítulos de alta calidad. Demostramos que el modelo de video y lenguaje adaptado funciona bien en una amplia gama de benchmarks de video y lenguaje. Por ejemplo, supera el mejor resultado previo en NExT-QA de respuesta abierta en un 2,8%. Además, nuestro modelo genera descripciones detalladas para videos previamente no vistos, lo que proporciona una supervisión textual mejor que los métodos existentes. Los experimentos muestran que un modelo de codificador dual de video y lenguaje entrenado de manera contrastiva con estos subtítulos generados automáticamente es un 3,8% mejor que la línea base más fuerte que también aprovecha los modelos de visión y lenguaje. Nuestro mejor modelo supera a los métodos más avanzados en la recuperación de texto a video sin entrenamiento previo (zero-shot) en MSR-VTT en un 6%.

English

The recent advance in vision-language models is largely attributed to the abundance of image-text data. We aim to replicate this success for video-language models, but there simply is not enough human-curated video-text data available. We thus resort to fine-tuning a video-language model from a strong image-language baseline with synthesized instructional data. The resulting video-language model is then used to auto-label millions of videos to generate high-quality captions. We show the adapted video-language model performs well on a wide range of video-language benchmarks. For instance, it surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our model generates detailed descriptions for previously unseen videos, which provide better textual supervision than existing methods. Experiments show that a video-language dual-encoder model contrastively trained on these auto-generated captions is 3.8% better than the strongest baseline that also leverages vision-language models. Our best model outperforms state-of-the-art methods on MSR-VTT zero-shot text-to-video retrieval by 6%.

Distilación de Modelos de Visión-Lenguaje en Millones de Videos

Distilling Vision-Language Models on Millions of Videos

Resumen

Support