Grounded-VideoLLM: Migliorare il Temporale Dettagliato nel Grounding Video utilizzando Grandi Modelli Linguistici
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
October 4, 2024
Autori: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
cs.AI
Abstract
I Video Large Language Models (Video-LLM) hanno dimostrato notevoli capacità nella comprensione dei video a grana grossa, tuttavia faticano con il posizionamento temporale a grana fine. In questo articolo, presentiamo Grounded-VideoLLM, un nuovo Video-LLM capace di percepire e ragionare su momenti video specifici in modo dettagliato. Identifichiamo che i Video-LLM attuali presentano limitazioni per la comprensione dettagliata dei video poiché mancano di modellazione temporale efficace e rappresentazione dei timestamp. Pertanto, affiniamo il nostro modello incorporando (1) un flusso temporale aggiuntivo per codificare le relazioni tra i frame e (2) token temporali discreti arricchiti con conoscenze temporali specifiche per rappresentare i timestamp. Per ottimizzare l'addestramento di Grounded-VideoLLM, utilizziamo uno schema di addestramento a più fasi, iniziando con semplici compiti di descrizione video e introducendo progressivamente compiti di posizionamento temporale video di complessità crescente. Per potenziare ulteriormente la capacità di ragionamento temporale di Grounded-VideoLLM, creiamo anche un dataset VideoQA basato su posizionamento tramite un flusso di annotazione automatico. Estesi esperimenti dimostrano che Grounded-VideoLLM eccelle non solo nei compiti di posizionamento a grana fine come il posizionamento temporale delle frasi, la descrizione video densa e il VideoQA basato su posizionamento, ma mostra anche un grande potenziale come assistente video versatile per la comprensione generale dei video.
English
Video Large Language Models (Video-LLMs) have demonstrated remarkable
capabilities in coarse-grained video understanding, however, they struggle with
fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM,
a novel Video-LLM adept at perceiving and reasoning over specific video moments
in a fine-grained manner. We identify that current Video-LLMs have limitations
for fine-grained video understanding since they lack effective temporal
modeling and timestamp representation. In light of this, we sharpen our model
by incorporating (1) an additional temporal stream to encode the relationships
between frames and (2) discrete temporal tokens enriched with specific time
knowledge to represent timestamps. To optimize the training of
Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with
simple video-captioning tasks and progressively introducing video temporal
grounding tasks of increasing complexity. To further enhance
Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded
VideoQA dataset by an automatic annotation pipeline. Extensive experiments
demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding
tasks such as temporal sentence grounding, dense video captioning, and grounded
VideoQA, but also shows great potential as a versatile video assistant for
general video understanding.