Text-konditionierter Resampler für das Verständnis von Langform-Videos
Text-Conditioned Resampler For Long Form Video Understanding
December 19, 2023
Autoren: Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
cs.AI
Zusammenfassung
Videos stellen eine hochgradig redundante Datenquelle dar, und oft reicht es aus, einige Schlüsselmomente zu identifizieren, um eine gegebene Aufgabe zu lösen. In diesem Artikel präsentieren wir ein textbedingtes Video-Resampling-Modul (TCR), das einen vortrainierten und eingefrorenen visuellen Encoder sowie ein großes Sprachmodell (LLM) verwendet, um lange Videosequenzen für eine Aufgabe zu verarbeiten. TCR lokalisiert relevante visuelle Merkmale aus dem Video basierend auf einer Textbedingung und stellt sie einem LLM zur Verfügung, um eine Textantwort zu generieren. Dank seines schlanken Designs und der Verwendung von Cross-Attention kann TCR mehr als 100 Frames gleichzeitig verarbeiten, wodurch das Modell viel längere Videosegmente nutzen kann als frühere Arbeiten. Wir leisten die folgenden Beiträge: (i) Wir entwerfen eine Transformer-basierte Sampling-Architektur, die lange Videos aufgabenbedingt verarbeiten kann, zusammen mit einer Trainingsmethode, die es ermöglicht, vortrainierte visuelle und Sprachmodelle zu verbinden; (ii) Wir validieren seine Wirksamkeit empirisch anhand einer Vielzahl von Evaluierungsaufgaben und setzen neue Maßstäbe für NextQA, EgoSchema und die EGO4D-LTA-Challenge; und (iii) Wir identifizieren Aufgaben, die längere Videokontexte erfordern und somit effektiv für die weitere Bewertung von Modellen mit langen Videosequenzen genutzt werden können.
English
Videos are highly redundant data source and it is often enough to identify a
few key moments to solve any given task. In this paper, we present a
text-conditioned video resampler (TCR) module that uses a pre-trained and
frozen visual encoder and large language model (LLM) to process long video
sequences for a task. TCR localises relevant visual features from the video
given a text condition and provides them to a LLM to generate a text response.
Due to its lightweight design and use of cross-attention, TCR can process more
than 100 frames at a time allowing the model to use much longer chunks of video
than earlier works. We make the following contributions: (i) we design a
transformer-based sampling architecture that can process long videos
conditioned on a task, together with a training method that enables it to
bridge pre-trained visual and language models; (ii) we empirically validate its
efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art
on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks
which require longer video contexts and that can thus be used effectively for
further evaluation of long-range video models.