Grounded-VideoLLM: Verfijning van Fijnmazige Temporele Verankering in Video met Grote Taalmodellen
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
October 4, 2024
Auteurs: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
cs.AI
Samenvatting
Video Large Language Models (Video-LLMs) hebben opmerkelijke mogelijkheden aangetoond in grofkorrelige videobegrip, maar hebben moeite met fijnkorrelige temporele verankering. In dit artikel introduceren we Grounded-VideoLLM, een nieuw Video-LLM dat bedreven is in het waarnemen en redeneren over specifieke videomomenten op een fijnkorrelige manier. We identificeren dat huidige Video-LLMs beperkingen hebben voor fijnkorrelig videobegrip omdat ze geen effectieve temporele modellering en tijdstempelrepresentatie hebben. In het licht hiervan scherpen we ons model aan door (1) een extra temporale stroom toe te voegen om de relaties tussen frames te coderen en (2) discrete temporele tokens te verrijken met specifieke tijdkennis om tijdstempels te representeren. Om het trainen van Grounded-VideoLLM te optimaliseren, maken we gebruik van een meertraps trainingsmethode, beginnend met eenvoudige video-ondertitelings taken en geleidelijk invoeren van video temporele verankeringstaken van toenemende complexiteit. Om de temporele redeneervaardigheid van Grounded-VideoLLM verder te verbeteren, creëren we ook een gefundeerde VideoQA dataset via een automatisch annotatieproces. Uitgebreide experimenten tonen aan dat Grounded-VideoLLM niet alleen uitblinkt in fijnkorrelige verankeringstaken zoals temporale zinverankering, dichte videobijschriften en gefundeerde VideoQA, maar ook aanzienlijk potentieel toont als een veelzijdige videobegeleider voor algemeen videobegrip.
English
Video Large Language Models (Video-LLMs) have demonstrated remarkable
capabilities in coarse-grained video understanding, however, they struggle with
fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM,
a novel Video-LLM adept at perceiving and reasoning over specific video moments
in a fine-grained manner. We identify that current Video-LLMs have limitations
for fine-grained video understanding since they lack effective temporal
modeling and timestamp representation. In light of this, we sharpen our model
by incorporating (1) an additional temporal stream to encode the relationships
between frames and (2) discrete temporal tokens enriched with specific time
knowledge to represent timestamps. To optimize the training of
Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with
simple video-captioning tasks and progressively introducing video temporal
grounding tasks of increasing complexity. To further enhance
Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded
VideoQA dataset by an automatic annotation pipeline. Extensive experiments
demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding
tasks such as temporal sentence grounding, dense video captioning, and grounded
VideoQA, but also shows great potential as a versatile video assistant for
general video understanding.Summary
AI-Generated Summary