ChatPaper.aiChatPaper

Grounded-VideoLLM: 비디오에서 미세 시간적 그라운딩을 더 정교하게 하는 대규모 언어 모델

Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models

October 4, 2024
저자: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
cs.AI

초록

비디오 대형 언어 모델(Video-LLMs)은 거친 수준의 비디오 이해에서 놀라운 능력을 보여주었지만, 세부적인 시간적 기준에는 어려움을 겪고 있습니다. 본 논문에서는 세부적인 방식으로 비디오 순간을 인식하고 추론하는 능력을 갖춘 새로운 Video-LLM인 Grounded-VideoLLM을 소개합니다. 현재의 Video-LLMs는 효과적인 시간적 모델링과 타임스탬프 표현이 부족하여 세부적인 비디오 이해에 제한이 있다는 것을 확인했습니다. 이에 따라, 우리는 (1) 프레임 간의 관계를 인코딩하기 위한 추가적인 시간적 스트림과 (2) 특정 시간 지식이 풍부한 이산적인 시간 토큰을 포함하여 모델을 개선했습니다. Grounded-VideoLLM의 훈련을 최적화하기 위해 단계적인 훈련 체계를 채택했는데, 이는 간단한 비디오 자막 작업으로 시작하여 점차 복잡도가 증가하는 비디오 시간 기준 작업을 도입하는 것입니다. 더 나아가 Grounded-VideoLLM의 시간적 추론 능력을 향상시키기 위해 자동 주석 파이프라인을 통해 지식이 담긴 VideoQA 데이터셋을 만들었습니다. 광범위한 실험 결과는 Grounded-VideoLLM이 시간적 문장 기준, 밀도 있는 비디오 자막, 그리고 지식이 담긴 VideoQA와 같은 세부적인 기준 작업에서 뛰어나며, 일반적인 비디오 이해를 위한 다재다능한 비디오 어시스턴트로 큰 잠재력을 보여준다는 것을 입증합니다.
English
Video Large Language Models (Video-LLMs) have demonstrated remarkable capabilities in coarse-grained video understanding, however, they struggle with fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM, a novel Video-LLM adept at perceiving and reasoning over specific video moments in a fine-grained manner. We identify that current Video-LLMs have limitations for fine-grained video understanding since they lack effective temporal modeling and timestamp representation. In light of this, we sharpen our model by incorporating (1) an additional temporal stream to encode the relationships between frames and (2) discrete temporal tokens enriched with specific time knowledge to represent timestamps. To optimize the training of Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with simple video-captioning tasks and progressively introducing video temporal grounding tasks of increasing complexity. To further enhance Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded VideoQA dataset by an automatic annotation pipeline. Extensive experiments demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding tasks such as temporal sentence grounding, dense video captioning, and grounded VideoQA, but also shows great potential as a versatile video assistant for general video understanding.

Summary

AI-Generated Summary

PDF72November 16, 2024