Grounded-VideoLLM: Mejorando la Delimitación Temporal Detallada en Video en Modelos de Lenguaje Grandes
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
October 4, 2024
Autores: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
cs.AI
Resumen
Los Modelos de Lenguaje en Video a Gran Escala (Video-LLMs) han demostrado capacidades notables en la comprensión de videos a nivel grueso, sin embargo, tienen dificultades con la localización temporal a nivel fino. En este artículo, presentamos Grounded-VideoLLM, un novedoso Video-LLM hábil en percibir y razonar sobre momentos específicos de un video de manera detallada. Identificamos que los actuales Video-LLMs tienen limitaciones para la comprensión detallada de videos ya que carecen de modelado temporal efectivo y representación de marcas de tiempo. En vista de esto, afilamos nuestro modelo incorporando (1) un flujo temporal adicional para codificar las relaciones entre fotogramas y (2) tokens temporales discretos enriquecidos con conocimiento temporal específico para representar marcas de tiempo. Para optimizar el entrenamiento de Grounded-VideoLLM, empleamos un esquema de entrenamiento de múltiples etapas, comenzando con tareas simples de descripción de videos y progresivamente introduciendo tareas de localización temporal de videos de creciente complejidad. Para mejorar aún más la capacidad de razonamiento temporal de Grounded-VideoLLM, también creamos un conjunto de datos de VideoQA fundamentado mediante un proceso automático de anotación. Experimentos extensos demuestran que Grounded-VideoLLM no solo sobresale en tareas de localización detallada como la localización temporal de oraciones, la descripción densa de videos y VideoQA fundamentado, sino que también muestra un gran potencial como asistente de video versátil para la comprensión general de videos.
English
Video Large Language Models (Video-LLMs) have demonstrated remarkable
capabilities in coarse-grained video understanding, however, they struggle with
fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM,
a novel Video-LLM adept at perceiving and reasoning over specific video moments
in a fine-grained manner. We identify that current Video-LLMs have limitations
for fine-grained video understanding since they lack effective temporal
modeling and timestamp representation. In light of this, we sharpen our model
by incorporating (1) an additional temporal stream to encode the relationships
between frames and (2) discrete temporal tokens enriched with specific time
knowledge to represent timestamps. To optimize the training of
Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with
simple video-captioning tasks and progressively introducing video temporal
grounding tasks of increasing complexity. To further enhance
Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded
VideoQA dataset by an automatic annotation pipeline. Extensive experiments
demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding
tasks such as temporal sentence grounding, dense video captioning, and grounded
VideoQA, but also shows great potential as a versatile video assistant for
general video understanding.Summary
AI-Generated Summary