Grounded-VideoLLM: Aperfeiçoando o Ancoramento Temporal Detalhado em Vídeos com Modelos de Linguagem Grandes
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
October 4, 2024
Autores: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
cs.AI
Resumo
Os Modelos de Linguagem em Vídeo de Grande Escala (Video-LLMs) demonstraram capacidades notáveis em compreensão de vídeo em granularidade grosseira, no entanto, enfrentam dificuldades com a fundamentação temporal em granularidade fina. Neste artigo, apresentamos o Grounded-VideoLLM, um novo Video-LLM capaz de perceber e raciocinar sobre momentos específicos de vídeo de maneira detalhada. Identificamos que os atuais Video-LLMs têm limitações para compreensão de vídeo em granularidade fina, uma vez que carecem de modelagem temporal eficaz e representação de timestamp. Diante disso, aprimoramos nosso modelo incorporando (1) um fluxo temporal adicional para codificar as relações entre frames e (2) tokens temporais discretos enriquecidos com conhecimento temporal específico para representar timestamps. Para otimizar o treinamento do Grounded-VideoLLM, empregamos um esquema de treinamento em múltiplas etapas, começando com tarefas simples de legenda de vídeo e introduzindo progressivamente tarefas de fundamentação temporal de vídeo de complexidade crescente. Para aprimorar ainda mais a capacidade de raciocínio temporal do Grounded-VideoLLM, também criamos um conjunto de dados de VideoQA fundamentado por meio de um pipeline de anotação automática. Experimentos extensivos demonstram que o Grounded-VideoLLM não apenas se destaca em tarefas de fundamentação em granularidade fina, como fundamentação de sentenças temporais, legenda densa de vídeo e VideoQA fundamentado, mas também mostra grande potencial como um assistente de vídeo versátil para compreensão geral de vídeo.
English
Video Large Language Models (Video-LLMs) have demonstrated remarkable
capabilities in coarse-grained video understanding, however, they struggle with
fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM,
a novel Video-LLM adept at perceiving and reasoning over specific video moments
in a fine-grained manner. We identify that current Video-LLMs have limitations
for fine-grained video understanding since they lack effective temporal
modeling and timestamp representation. In light of this, we sharpen our model
by incorporating (1) an additional temporal stream to encode the relationships
between frames and (2) discrete temporal tokens enriched with specific time
knowledge to represent timestamps. To optimize the training of
Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with
simple video-captioning tasks and progressively introducing video temporal
grounding tasks of increasing complexity. To further enhance
Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded
VideoQA dataset by an automatic annotation pipeline. Extensive experiments
demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding
tasks such as temporal sentence grounding, dense video captioning, and grounded
VideoQA, but also shows great potential as a versatile video assistant for
general video understanding.Summary
AI-Generated Summary