Grounded-VideoLLM : Affiner le cadrage temporel détaillé dans les vidéos à l'aide de grands modèles de langage
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
October 4, 2024
Auteurs: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
cs.AI
Résumé
Les grands modèles de langage vidéo (Video-LLMs) ont démontré des capacités remarquables dans la compréhension vidéo à gros grains, cependant, ils rencontrent des difficultés avec l'ancrage temporel à grain fin. Dans cet article, nous présentons Grounded-VideoLLM, un nouveau Video-LLM capable de percevoir et de raisonner sur des moments vidéo spécifiques de manière à grain fin. Nous identifions que les Video-LLMs actuels ont des limitations pour la compréhension vidéo à grain fin car ils manquent d'une modélisation temporelle efficace et d'une représentation des horodatages. En tenant compte de cela, nous affinons notre modèle en incorporant (1) un flux temporel supplémentaire pour encoder les relations entre les images et (2) des jetons temporels discrets enrichis de connaissances temporelles spécifiques pour représenter les horodatages. Pour optimiser l'entraînement de Grounded-VideoLLM, nous utilisons un schéma d'entraînement multi-étapes, en commençant par des tâches simples de légendage vidéo et en introduisant progressivement des tâches d'ancrage temporel vidéo de complexité croissante. Pour renforcer davantage la capacité de raisonnement temporel de Grounded-VideoLLM, nous constituons également un ensemble de données VideoQA ancré par un pipeline d'annotation automatique. Des expériences approfondies démontrent que Grounded-VideoLLM excelle non seulement dans les tâches d'ancrage à grain fin telles que l'ancrage temporel de phrases, le légendage vidéo dense et le VideoQA ancré, mais montre également un grand potentiel en tant qu'assistant vidéo polyvalent pour la compréhension vidéo générale.
English
Video Large Language Models (Video-LLMs) have demonstrated remarkable
capabilities in coarse-grained video understanding, however, they struggle with
fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM,
a novel Video-LLM adept at perceiving and reasoning over specific video moments
in a fine-grained manner. We identify that current Video-LLMs have limitations
for fine-grained video understanding since they lack effective temporal
modeling and timestamp representation. In light of this, we sharpen our model
by incorporating (1) an additional temporal stream to encode the relationships
between frames and (2) discrete temporal tokens enriched with specific time
knowledge to represent timestamps. To optimize the training of
Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with
simple video-captioning tasks and progressively introducing video temporal
grounding tasks of increasing complexity. To further enhance
Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded
VideoQA dataset by an automatic annotation pipeline. Extensive experiments
demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding
tasks such as temporal sentence grounding, dense video captioning, and grounded
VideoQA, but also shows great potential as a versatile video assistant for
general video understanding.Summary
AI-Generated Summary