Vript: Un video vale más que mil palabras

Resumen

Los avances en el aprendizaje multimodal, particularmente en la comprensión y generación de videos, requieren conjuntos de datos de video-texto de alta calidad para mejorar el rendimiento de los modelos. Vript aborda este problema con un corpus meticulosamente anotado de 12K videos de alta resolución, ofreciendo subtítulos detallados, densos y similares a guiones para más de 420K clips. Cada clip tiene un subtítulo de ~145 palabras, lo que es más de 10 veces más largo que la mayoría de los conjuntos de datos video-texto. A diferencia de los subtítulos que solo documentan contenido estático en conjuntos de datos anteriores, mejoramos la subtitulación de videos a la creación de guiones, documentando no solo el contenido, sino también las operaciones de cámara, que incluyen los tipos de toma (plano medio, primer plano, etc.) y los movimientos de cámara (paneo, inclinación, etc.). Al utilizar Vript, exploramos tres paradigmas de entrenamiento que alinean más texto con la modalidad de video en lugar de pares clip-subtítulo. Esto resulta en Vriptor, un modelo de subtitulación de videos de alto rendimiento entre los modelos de código abierto, comparable a GPT-4V en rendimiento. Vriptor también es un modelo potente capaz de generar subtítulos densos y detallados de manera integral para videos largos. Además, presentamos Vript-Hard, un punto de referencia que consta de tres tareas de comprensión de videos más desafiantes que los puntos de referencia existentes: Vript-HAL es el primer punto de referencia que evalúa las alucinaciones de acciones y objetos en modelos de lenguaje de video (LLMs), Vript-RR combina razonamiento con recuperación para resolver la ambigüedad de preguntas en QAs de videos largos, y Vript-ERO es una nueva tarea para evaluar la comprensión temporal de eventos en videos largos en lugar de acciones en videos cortos en trabajos anteriores. Todo el código, modelos y conjuntos de datos están disponibles en https://github.com/mutonix/Vript.

English

Advancements in multimodal learning, particularly in video understanding and generation, require high-quality video-text datasets for improved model performance. Vript addresses this issue with a meticulously annotated corpus of 12K high-resolution videos, offering detailed, dense, and script-like captions for over 420K clips. Each clip has a caption of ~145 words, which is over 10x longer than most video-text datasets. Unlike captions only documenting static content in previous datasets, we enhance video captioning to video scripting by documenting not just the content, but also the camera operations, which include the shot types (medium shot, close-up, etc) and camera movements (panning, tilting, etc). By utilizing the Vript, we explore three training paradigms of aligning more text with the video modality rather than clip-caption pairs. This results in Vriptor, a top-performing video captioning model among open-source models, comparable to GPT-4V in performance. Vriptor is also a powerful model capable of end-to-end generation of dense and detailed captions for long videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three video understanding tasks that are more challenging than existing benchmarks: Vript-HAL is the first benchmark evaluating action and object hallucinations in video LLMs, Vript-RR combines reasoning with retrieval resolving question ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the temporal understanding of events in long videos rather than actions in short videos in previous works. All code, models, and datasets are available in https://github.com/mutonix/Vript.

Vript: Un video vale más que mil palabras

Vript: A Video Is Worth Thousands of Words

Resumen

Support