Grounded-VideoLLM : Affiner le cadrage temporel détaillé dans les vidéos à l'aide de grands modèles de langage

papers.abstract

Les grands modèles de langage vidéo (Video-LLMs) ont démontré des capacités remarquables dans la compréhension vidéo à gros grains, cependant, ils rencontrent des difficultés avec l'ancrage temporel à grain fin. Dans cet article, nous présentons Grounded-VideoLLM, un nouveau Video-LLM capable de percevoir et de raisonner sur des moments vidéo spécifiques de manière à grain fin. Nous identifions que les Video-LLMs actuels ont des limitations pour la compréhension vidéo à grain fin car ils manquent d'une modélisation temporelle efficace et d'une représentation des horodatages. En tenant compte de cela, nous affinons notre modèle en incorporant (1) un flux temporel supplémentaire pour encoder les relations entre les images et (2) des jetons temporels discrets enrichis de connaissances temporelles spécifiques pour représenter les horodatages. Pour optimiser l'entraînement de Grounded-VideoLLM, nous utilisons un schéma d'entraînement multi-étapes, en commençant par des tâches simples de légendage vidéo et en introduisant progressivement des tâches d'ancrage temporel vidéo de complexité croissante. Pour renforcer davantage la capacité de raisonnement temporel de Grounded-VideoLLM, nous constituons également un ensemble de données VideoQA ancré par un pipeline d'annotation automatique. Des expériences approfondies démontrent que Grounded-VideoLLM excelle non seulement dans les tâches d'ancrage à grain fin telles que l'ancrage temporel de phrases, le légendage vidéo dense et le VideoQA ancré, mais montre également un grand potentiel en tant qu'assistant vidéo polyvalent pour la compréhension vidéo générale.

English

Video Large Language Models (Video-LLMs) have demonstrated remarkable capabilities in coarse-grained video understanding, however, they struggle with fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM, a novel Video-LLM adept at perceiving and reasoning over specific video moments in a fine-grained manner. We identify that current Video-LLMs have limitations for fine-grained video understanding since they lack effective temporal modeling and timestamp representation. In light of this, we sharpen our model by incorporating (1) an additional temporal stream to encode the relationships between frames and (2) discrete temporal tokens enriched with specific time knowledge to represent timestamps. To optimize the training of Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with simple video-captioning tasks and progressively introducing video temporal grounding tasks of increasing complexity. To further enhance Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded VideoQA dataset by an automatic annotation pipeline. Extensive experiments demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding tasks such as temporal sentence grounding, dense video captioning, and grounded VideoQA, but also shows great potential as a versatile video assistant for general video understanding.

Grounded-VideoLLM : Affiner le cadrage temporel détaillé dans les vidéos à l'aide de grands modèles de langage

Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models

papers.abstract

Support