UniVTG: 통합 비디오-언어 시간적 그라운딩을 향하여
UniVTG: Towards Unified Video-Language Temporal Grounding
July 31, 2023
저자: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
cs.AI
초록
비디오 시간적 그라운딩(Video Temporal Grounding, VTG)은 사용자 정의 언어 쿼리(예: 문장 또는 단어)에 따라 비디오에서 타겟 클립(예: 연속적인 구간 또는 분리된 샷)을 찾는 것을 목표로 하며, 소셜 미디어에서의 비디오 탐색에 핵심적인 역할을 합니다. 이 분야의 대부분의 방법은 특정 작업에 맞춰진 모델을 개발하며, 이 모델들은 시간 간격 검색(moment retrieval)이나 가치 곡선(worthiness curve)과 같은 유형별 레이블로 학습됩니다. 이는 다양한 VTG 작업과 레이블로 일반화하는 능력을 제한합니다. 본 논문에서는 다양한 VTG 레이블과 작업을 통합하는 UniVTG를 제안합니다. 첫째, 다양한 VTG 레이블과 작업을 재검토하고 통합된 공식을 정의합니다. 이를 기반으로 확장 가능한 가짜 감독(pseudo supervision)을 생성하기 위한 데이터 주석 방식을 개발합니다. 둘째, 각 작업을 해결하고 각 레이블을 최대한 활용할 수 있는 효과적이고 유연한 그라운딩 모델을 개발합니다. 마지막으로, 통합된 프레임워크 덕분에 대규모 다양한 레이블로부터 시간적 그라운딩 사전 학습을 가능하게 하고, 제로샷 그라운딩(zero-shot grounding)과 같은 더 강력한 그라운딩 능력을 개발합니다. 7개의 데이터셋(QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, QFVS)에서 3가지 작업(시간 간격 검색, 하이라이트 검출, 비디오 요약)에 대한 광범위한 실험을 통해 제안된 프레임워크의 효과성과 유연성을 입증합니다. 코드는 https://github.com/showlab/UniVTG에서 확인할 수 있습니다.
English
Video Temporal Grounding (VTG), which aims to ground target clips from videos
(such as consecutive intervals or disjoint shots) according to custom language
queries (e.g., sentences or words), is key for video browsing on social media.
Most methods in this direction develop taskspecific models that are trained
with type-specific labels, such as moment retrieval (time interval) and
highlight detection (worthiness curve), which limits their abilities to
generalize to various VTG tasks and labels. In this paper, we propose to Unify
the diverse VTG labels and tasks, dubbed UniVTG, along three directions:
Firstly, we revisit a wide range of VTG labels and tasks and define a unified
formulation. Based on this, we develop data annotation schemes to create
scalable pseudo supervision. Secondly, we develop an effective and flexible
grounding model capable of addressing each task and making full use of each
label. Lastly, thanks to the unified framework, we are able to unlock temporal
grounding pretraining from large-scale diverse labels and develop stronger
grounding abilities e.g., zero-shot grounding. Extensive experiments on three
tasks (moment retrieval, highlight detection and video summarization) across
seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights,
TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed
framework. The codes are available at https://github.com/showlab/UniVTG.