Rééchantillonneur Conditionné par le Texte pour la Compréhension de Vidéos Longues
Text-Conditioned Resampler For Long Form Video Understanding
December 19, 2023
Auteurs: Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
cs.AI
Résumé
Les vidéos constituent une source de données hautement redondante, et il est souvent suffisant d'identifier quelques moments clés pour résoudre une tâche donnée. Dans cet article, nous présentons un module de rééchantillonnage vidéo conditionné par texte (TCR) qui utilise un encodeur visuel pré-entraîné et figé ainsi qu'un modèle de langage de grande taille (LLM) pour traiter de longues séquences vidéo en fonction d'une tâche. Le TCR localise les caractéristiques visuelles pertinentes de la vidéo en fonction d'une condition textuelle et les fournit à un LLM pour générer une réponse textuelle. Grâce à sa conception légère et à l'utilisation de l'attention croisée, le TCR peut traiter plus de 100 images à la fois, permettant au modèle d'utiliser des segments vidéo beaucoup plus longs que les travaux précédents. Nous apportons les contributions suivantes : (i) nous concevons une architecture d'échantillonnage basée sur des transformateurs capable de traiter de longues vidéos conditionnées par une tâche, ainsi qu'une méthode d'entraînement qui lui permet de relier des modèles visuels et linguistiques pré-entraînés ; (ii) nous validons empiriquement son efficacité sur une grande variété de tâches d'évaluation, et établissons un nouvel état de l'art sur NextQA, EgoSchema et le défi EGO4D-LTA ; et (iii) nous identifions les tâches qui nécessitent des contextes vidéo plus longs et qui peuvent donc être utilisées efficacement pour une évaluation approfondie des modèles vidéo à long terme.
English
Videos are highly redundant data source and it is often enough to identify a
few key moments to solve any given task. In this paper, we present a
text-conditioned video resampler (TCR) module that uses a pre-trained and
frozen visual encoder and large language model (LLM) to process long video
sequences for a task. TCR localises relevant visual features from the video
given a text condition and provides them to a LLM to generate a text response.
Due to its lightweight design and use of cross-attention, TCR can process more
than 100 frames at a time allowing the model to use much longer chunks of video
than earlier works. We make the following contributions: (i) we design a
transformer-based sampling architecture that can process long videos
conditioned on a task, together with a training method that enables it to
bridge pre-trained visual and language models; (ii) we empirically validate its
efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art
on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks
which require longer video contexts and that can thus be used effectively for
further evaluation of long-range video models.