Vript: Un video vale más que mil palabras
Vript: A Video Is Worth Thousands of Words
June 10, 2024
Autores: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI
Resumen
Los avances en el aprendizaje multimodal, particularmente en la comprensión y generación de videos, requieren conjuntos de datos de video-texto de alta calidad para mejorar el rendimiento de los modelos. Vript aborda este problema con un corpus meticulosamente anotado de 12K videos de alta resolución, ofreciendo subtítulos detallados, densos y similares a guiones para más de 420K clips. Cada clip tiene un subtítulo de ~145 palabras, lo que es más de 10 veces más largo que la mayoría de los conjuntos de datos video-texto. A diferencia de los subtítulos que solo documentan contenido estático en conjuntos de datos anteriores, mejoramos la subtitulación de videos a la creación de guiones, documentando no solo el contenido, sino también las operaciones de cámara, que incluyen los tipos de toma (plano medio, primer plano, etc.) y los movimientos de cámara (paneo, inclinación, etc.). Al utilizar Vript, exploramos tres paradigmas de entrenamiento que alinean más texto con la modalidad de video en lugar de pares clip-subtítulo. Esto resulta en Vriptor, un modelo de subtitulación de videos de alto rendimiento entre los modelos de código abierto, comparable a GPT-4V en rendimiento. Vriptor también es un modelo potente capaz de generar subtítulos densos y detallados de manera integral para videos largos. Además, presentamos Vript-Hard, un punto de referencia que consta de tres tareas de comprensión de videos más desafiantes que los puntos de referencia existentes: Vript-HAL es el primer punto de referencia que evalúa las alucinaciones de acciones y objetos en modelos de lenguaje de video (LLMs), Vript-RR combina razonamiento con recuperación para resolver la ambigüedad de preguntas en QAs de videos largos, y Vript-ERO es una nueva tarea para evaluar la comprensión temporal de eventos en videos largos en lugar de acciones en videos cortos en trabajos anteriores. Todo el código, modelos y conjuntos de datos están disponibles en https://github.com/mutonix/Vript.
English
Advancements in multimodal learning, particularly in video understanding and
generation, require high-quality video-text datasets for improved model
performance. Vript addresses this issue with a meticulously annotated corpus of
12K high-resolution videos, offering detailed, dense, and script-like captions
for over 420K clips. Each clip has a caption of ~145 words, which is over 10x
longer than most video-text datasets. Unlike captions only documenting static
content in previous datasets, we enhance video captioning to video scripting by
documenting not just the content, but also the camera operations, which include
the shot types (medium shot, close-up, etc) and camera movements (panning,
tilting, etc). By utilizing the Vript, we explore three training paradigms of
aligning more text with the video modality rather than clip-caption pairs. This
results in Vriptor, a top-performing video captioning model among open-source
models, comparable to GPT-4V in performance. Vriptor is also a powerful model
capable of end-to-end generation of dense and detailed captions for long
videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three
video understanding tasks that are more challenging than existing benchmarks:
Vript-HAL is the first benchmark evaluating action and object hallucinations in
video LLMs, Vript-RR combines reasoning with retrieval resolving question
ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the
temporal understanding of events in long videos rather than actions in short
videos in previous works. All code, models, and datasets are available in
https://github.com/mutonix/Vript.Summary
AI-Generated Summary