Grounded-VideoLLM: Verfijning van Fijnmazige Temporele Verankering in Video met Grote Taalmodellen

Samenvatting

Video Large Language Models (Video-LLMs) hebben opmerkelijke mogelijkheden aangetoond in grofkorrelige videobegrip, maar hebben moeite met fijnkorrelige temporele verankering. In dit artikel introduceren we Grounded-VideoLLM, een nieuw Video-LLM dat bedreven is in het waarnemen en redeneren over specifieke videomomenten op een fijnkorrelige manier. We identificeren dat huidige Video-LLMs beperkingen hebben voor fijnkorrelig videobegrip omdat ze geen effectieve temporele modellering en tijdstempelrepresentatie hebben. In het licht hiervan scherpen we ons model aan door (1) een extra temporale stroom toe te voegen om de relaties tussen frames te coderen en (2) discrete temporele tokens te verrijken met specifieke tijdkennis om tijdstempels te representeren. Om het trainen van Grounded-VideoLLM te optimaliseren, maken we gebruik van een meertraps trainingsmethode, beginnend met eenvoudige video-ondertitelings taken en geleidelijk invoeren van video temporele verankeringstaken van toenemende complexiteit. Om de temporele redeneervaardigheid van Grounded-VideoLLM verder te verbeteren, creëren we ook een gefundeerde VideoQA dataset via een automatisch annotatieproces. Uitgebreide experimenten tonen aan dat Grounded-VideoLLM niet alleen uitblinkt in fijnkorrelige verankeringstaken zoals temporale zinverankering, dichte videobijschriften en gefundeerde VideoQA, maar ook aanzienlijk potentieel toont als een veelzijdige videobegeleider voor algemeen videobegrip.

English

Video Large Language Models (Video-LLMs) have demonstrated remarkable capabilities in coarse-grained video understanding, however, they struggle with fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM, a novel Video-LLM adept at perceiving and reasoning over specific video moments in a fine-grained manner. We identify that current Video-LLMs have limitations for fine-grained video understanding since they lack effective temporal modeling and timestamp representation. In light of this, we sharpen our model by incorporating (1) an additional temporal stream to encode the relationships between frames and (2) discrete temporal tokens enriched with specific time knowledge to represent timestamps. To optimize the training of Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with simple video-captioning tasks and progressively introducing video temporal grounding tasks of increasing complexity. To further enhance Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded VideoQA dataset by an automatic annotation pipeline. Extensive experiments demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding tasks such as temporal sentence grounding, dense video captioning, and grounded VideoQA, but also shows great potential as a versatile video assistant for general video understanding.

Grounded-VideoLLM: Verfijning van Fijnmazige Temporele Verankering in Video met Grote Taalmodellen

Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models

Samenvatting

Support