Grounded-VideoLLM: Verfeinerung der feinkörnigen zeitlichen Verankerung in Videos durch große Sprachmodelle
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
October 4, 2024
Autoren: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
cs.AI
Zusammenfassung
Video Large Language Models (Video-LLMs) haben bemerkenswerte Fähigkeiten in der grobkörnigen Videoerkennung gezeigt, haben jedoch Schwierigkeiten mit feinkörniger zeitlicher Verankerung. In diesem Paper stellen wir Grounded-VideoLLM vor, ein neuartiges Video-LLM, das dazu in der Lage ist, spezifische Videomomente auf feinkörnige Weise wahrzunehmen und zu analysieren. Wir erkennen, dass aktuelle Video-LLMs Einschränkungen bei der feinkörnigen Videoerkennung aufweisen, da ihnen eine effektive zeitliche Modellierung und Zeitstempelrepräsentation fehlt. Vor diesem Hintergrund schärfen wir unser Modell, indem wir (1) einen zusätzlichen zeitlichen Strom zur Kodierung der Beziehungen zwischen Frames und (2) diskrete zeitliche Tokens, angereichert mit spezifischem Zeitwissen, zur Darstellung von Zeitstempeln integrieren. Zur Optimierung des Trainings von Grounded-VideoLLM verwenden wir ein mehrstufiges Schulungsschema, das mit einfachen Video-Untertitelungsaufgaben beginnt und schrittweise Videozeitverankerungsaufgaben mit zunehmender Komplexität einführt. Um die zeitliche Schlussfolgerungsfähigkeit von Grounded-VideoLLM weiter zu verbessern, kuratieren wir auch einen geerdeten VideoQA-Datensatz durch eine automatische Annotationspipeline. Umfangreiche Experimente zeigen, dass Grounded-VideoLLM nicht nur in feinkörnigen Verankerungsaufgaben wie zeitlicher Satzverankerung, dichter Videobeschreibung und geerdetem VideoQA herausragt, sondern auch ein großes Potenzial als vielseitiger Videoassistent für die allgemeine Videoerkennung zeigt.
English
Video Large Language Models (Video-LLMs) have demonstrated remarkable
capabilities in coarse-grained video understanding, however, they struggle with
fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM,
a novel Video-LLM adept at perceiving and reasoning over specific video moments
in a fine-grained manner. We identify that current Video-LLMs have limitations
for fine-grained video understanding since they lack effective temporal
modeling and timestamp representation. In light of this, we sharpen our model
by incorporating (1) an additional temporal stream to encode the relationships
between frames and (2) discrete temporal tokens enriched with specific time
knowledge to represent timestamps. To optimize the training of
Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with
simple video-captioning tasks and progressively introducing video temporal
grounding tasks of increasing complexity. To further enhance
Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded
VideoQA dataset by an automatic annotation pipeline. Extensive experiments
demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding
tasks such as temporal sentence grounding, dense video captioning, and grounded
VideoQA, but also shows great potential as a versatile video assistant for
general video understanding.Summary
AI-Generated Summary