Resampler Condizionato al Testo per la Comprensione di Video di Lunga Durata
Text-Conditioned Resampler For Long Form Video Understanding
December 19, 2023
Autori: Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
cs.AI
Abstract
I video sono una fonte di dati altamente ridondante e spesso è sufficiente identificare pochi momenti chiave per risolvere un determinato compito. In questo articolo, presentiamo un modulo di ricampionamento video condizionato al testo (TCR) che utilizza un encoder visivo pre-addestrato e congelato e un modello linguistico di grandi dimensioni (LLM) per elaborare sequenze video lunghe per un compito specifico. TCR localizza le caratteristiche visive rilevanti dal video in base a una condizione testuale e le fornisce a un LLM per generare una risposta testuale. Grazie al suo design leggero e all'uso dell'attenzione incrociata, TCR può elaborare più di 100 fotogrammi alla volta, consentendo al modello di utilizzare segmenti video molto più lunghi rispetto ai lavori precedenti. Facciamo i seguenti contributi: (i) progettiamo un'architettura di campionamento basata su transformer in grado di elaborare video lunghi condizionati a un compito, insieme a un metodo di addestramento che le consente di collegare modelli visivi e linguistici pre-addestrati; (ii) validiamo empiricamente la sua efficacia su una vasta gamma di compiti di valutazione, e stabiliamo un nuovo stato dell'arte su NextQA, EgoSchema e la sfida EGO4D-LTA; e (iii) identifichiamo i compiti che richiedono contesti video più lunghi e che possono quindi essere utilizzati efficacemente per ulteriori valutazioni di modelli video a lungo raggio.
English
Videos are highly redundant data source and it is often enough to identify a
few key moments to solve any given task. In this paper, we present a
text-conditioned video resampler (TCR) module that uses a pre-trained and
frozen visual encoder and large language model (LLM) to process long video
sequences for a task. TCR localises relevant visual features from the video
given a text condition and provides them to a LLM to generate a text response.
Due to its lightweight design and use of cross-attention, TCR can process more
than 100 frames at a time allowing the model to use much longer chunks of video
than earlier works. We make the following contributions: (i) we design a
transformer-based sampling architecture that can process long videos
conditioned on a task, together with a training method that enables it to
bridge pre-trained visual and language models; (ii) we empirically validate its
efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art
on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks
which require longer video contexts and that can thus be used effectively for
further evaluation of long-range video models.