Remuestreador Condicionado por Texto para la Comprensión de Videos de Larga Duración
Text-Conditioned Resampler For Long Form Video Understanding
December 19, 2023
Autores: Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
cs.AI
Resumen
Los videos son una fuente de datos altamente redundante y, a menudo, es suficiente identificar unos pocos momentos clave para resolver cualquier tarea dada. En este artículo, presentamos un módulo de remuestreo de video condicionado por texto (TCR, por sus siglas en inglés) que utiliza un codificador visual preentrenado y congelado, junto con un modelo de lenguaje grande (LLM, por sus siglas en inglés), para procesar secuencias de video largas para una tarea. TCR localiza características visuales relevantes del video dado un condicionamiento de texto y las proporciona a un LLM para generar una respuesta en texto. Debido a su diseño ligero y al uso de atención cruzada, TCR puede procesar más de 100 fotogramas a la vez, lo que permite al modelo utilizar fragmentos de video mucho más largos que en trabajos anteriores. Hacemos las siguientes contribuciones: (i) diseñamos una arquitectura de muestreo basada en transformadores que puede procesar videos largos condicionados a una tarea, junto con un método de entrenamiento que le permite conectar modelos visuales y de lenguaje preentrenados; (ii) validamos empíricamente su eficacia en una amplia variedad de tareas de evaluación y establecemos un nuevo estado del arte en NextQA, EgoSchema y el desafío EGO4D-LTA; y (iii) determinamos tareas que requieren contextos de video más largos y que, por lo tanto, pueden utilizarse de manera efectiva para una evaluación adicional de modelos de video de largo alcance.
English
Videos are highly redundant data source and it is often enough to identify a
few key moments to solve any given task. In this paper, we present a
text-conditioned video resampler (TCR) module that uses a pre-trained and
frozen visual encoder and large language model (LLM) to process long video
sequences for a task. TCR localises relevant visual features from the video
given a text condition and provides them to a LLM to generate a text response.
Due to its lightweight design and use of cross-attention, TCR can process more
than 100 frames at a time allowing the model to use much longer chunks of video
than earlier works. We make the following contributions: (i) we design a
transformer-based sampling architecture that can process long videos
conditioned on a task, together with a training method that enables it to
bridge pre-trained visual and language models; (ii) we empirically validate its
efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art
on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks
which require longer video contexts and that can thus be used effectively for
further evaluation of long-range video models.