ChatPaper.aiChatPaper

UniVTG: Auf dem Weg zu einer einheitlichen zeitlichen Verankerung von Video und Sprache

UniVTG: Towards Unified Video-Language Temporal Grounding

July 31, 2023
Autoren: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
cs.AI

Zusammenfassung

Video Temporal Grounding (VTG), das darauf abzielt, Zielclips aus Videos (wie aufeinanderfolgende Intervalle oder getrennte Aufnahmen) anhand von benutzerdefinierten Sprachabfragen (z. B. Sätze oder Wörter) zu lokalisieren, ist entscheidend für das Durchsuchen von Videos in sozialen Medien. Die meisten Methoden in diesem Bereich entwickeln aufgaben spezifische Modelle, die mit typspezifischen Labels trainiert werden, wie Moment Retrieval (Zeitintervall) und Highlight Detection (Wertigkeitskurve), was ihre Fähigkeit einschränkt, sich auf verschiedene VTG-Aufgaben und Labels zu verallgemeinern. In diesem Artikel schlagen wir vor, die diversen VTG-Labels und Aufgaben zu vereinheitlichen, genannt UniVTG, und dies in drei Richtungen: Erstens untersuchen wir eine breite Palette von VTG-Labels und Aufgaben und definieren eine einheitliche Formulierung. Basierend darauf entwickeln wir Datenannotationsschemata, um skalierbare pseudo-supervision zu erstellen. Zweitens entwickeln wir ein effektives und flexibles Grounding-Modell, das in der Lage ist, jede Aufgabe zu bewältigen und jedes Label vollständig zu nutzen. Schließlich ermöglicht es uns der vereinheitlichte Rahmen, das Pretraining für temporales Grounding aus groß angelegten, diversen Labels freizuschalten und stärkere Grounding-Fähigkeiten zu entwickeln, z. B. Zero-Shot-Grounding. Umfangreiche Experimente zu drei Aufgaben (Moment Retrieval, Highlight Detection und Video Summarization) über sieben Datensätze (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum und QFVS) demonstrieren die Effektivität und Flexibilität unseres vorgeschlagenen Frameworks. Die Codes sind verfügbar unter https://github.com/showlab/UniVTG.
English
Video Temporal Grounding (VTG), which aims to ground target clips from videos (such as consecutive intervals or disjoint shots) according to custom language queries (e.g., sentences or words), is key for video browsing on social media. Most methods in this direction develop taskspecific models that are trained with type-specific labels, such as moment retrieval (time interval) and highlight detection (worthiness curve), which limits their abilities to generalize to various VTG tasks and labels. In this paper, we propose to Unify the diverse VTG labels and tasks, dubbed UniVTG, along three directions: Firstly, we revisit a wide range of VTG labels and tasks and define a unified formulation. Based on this, we develop data annotation schemes to create scalable pseudo supervision. Secondly, we develop an effective and flexible grounding model capable of addressing each task and making full use of each label. Lastly, thanks to the unified framework, we are able to unlock temporal grounding pretraining from large-scale diverse labels and develop stronger grounding abilities e.g., zero-shot grounding. Extensive experiments on three tasks (moment retrieval, highlight detection and video summarization) across seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed framework. The codes are available at https://github.com/showlab/UniVTG.
PDF112December 15, 2024