Remuestreador Condicionado por Texto para la Comprensión de Videos de Larga Duración

Resumen

Los videos son una fuente de datos altamente redundante y, a menudo, es suficiente identificar unos pocos momentos clave para resolver cualquier tarea dada. En este artículo, presentamos un módulo de remuestreo de video condicionado por texto (TCR, por sus siglas en inglés) que utiliza un codificador visual preentrenado y congelado, junto con un modelo de lenguaje grande (LLM, por sus siglas en inglés), para procesar secuencias de video largas para una tarea. TCR localiza características visuales relevantes del video dado un condicionamiento de texto y las proporciona a un LLM para generar una respuesta en texto. Debido a su diseño ligero y al uso de atención cruzada, TCR puede procesar más de 100 fotogramas a la vez, lo que permite al modelo utilizar fragmentos de video mucho más largos que en trabajos anteriores. Hacemos las siguientes contribuciones: (i) diseñamos una arquitectura de muestreo basada en transformadores que puede procesar videos largos condicionados a una tarea, junto con un método de entrenamiento que le permite conectar modelos visuales y de lenguaje preentrenados; (ii) validamos empíricamente su eficacia en una amplia variedad de tareas de evaluación y establecemos un nuevo estado del arte en NextQA, EgoSchema y el desafío EGO4D-LTA; y (iii) determinamos tareas que requieren contextos de video más largos y que, por lo tanto, pueden utilizarse de manera efectiva para una evaluación adicional de modelos de video de largo alcance.

English

Videos are highly redundant data source and it is often enough to identify a few key moments to solve any given task. In this paper, we present a text-conditioned video resampler (TCR) module that uses a pre-trained and frozen visual encoder and large language model (LLM) to process long video sequences for a task. TCR localises relevant visual features from the video given a text condition and provides them to a LLM to generate a text response. Due to its lightweight design and use of cross-attention, TCR can process more than 100 frames at a time allowing the model to use much longer chunks of video than earlier works. We make the following contributions: (i) we design a transformer-based sampling architecture that can process long videos conditioned on a task, together with a training method that enables it to bridge pre-trained visual and language models; (ii) we empirically validate its efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks which require longer video contexts and that can thus be used effectively for further evaluation of long-range video models.

Remuestreador Condicionado por Texto para la Comprensión de Videos de Larga Duración

Text-Conditioned Resampler For Long Form Video Understanding

Resumen

Support