ChatPaper.aiChatPaper

Resampler Condicionado por Texto para Compreensão de Vídeos de Longa Duração

Text-Conditioned Resampler For Long Form Video Understanding

December 19, 2023
Autores: Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
cs.AI

Resumo

Vídeos são uma fonte de dados altamente redundante e, muitas vezes, é suficiente identificar alguns momentos-chave para resolver qualquer tarefa específica. Neste artigo, apresentamos um módulo de reamostragem de vídeo condicionado por texto (TCR) que utiliza um codificador visual pré-treinado e congelado, juntamente com um modelo de linguagem de grande escala (LLM), para processar sequências de vídeo longas para uma tarefa. O TCR localiza características visuais relevantes do vídeo com base em uma condição de texto e as fornece a um LLM para gerar uma resposta textual. Devido ao seu design leve e ao uso de atenção cruzada, o TCR pode processar mais de 100 quadros de uma vez, permitindo que o modelo utilize segmentos de vídeo muito mais longos do que trabalhos anteriores. Fazemos as seguintes contribuições: (i) projetamos uma arquitetura de amostragem baseada em transformadores que pode processar vídeos longos condicionados a uma tarefa, juntamente com um método de treinamento que permite a ponte entre modelos visuais e de linguagem pré-treinados; (ii) validamos empiricamente sua eficácia em uma ampla variedade de tarefas de avaliação, estabelecendo um novo estado da arte no NextQA, EgoSchema e no desafio EGO4D-LTA; e (iii) determinamos tarefas que exigem contextos de vídeo mais longos e que, portanto, podem ser usadas efetivamente para avaliação adicional de modelos de vídeo de longo alcance.
English
Videos are highly redundant data source and it is often enough to identify a few key moments to solve any given task. In this paper, we present a text-conditioned video resampler (TCR) module that uses a pre-trained and frozen visual encoder and large language model (LLM) to process long video sequences for a task. TCR localises relevant visual features from the video given a text condition and provides them to a LLM to generate a text response. Due to its lightweight design and use of cross-attention, TCR can process more than 100 frames at a time allowing the model to use much longer chunks of video than earlier works. We make the following contributions: (i) we design a transformer-based sampling architecture that can process long videos conditioned on a task, together with a training method that enables it to bridge pre-trained visual and language models; (ii) we empirically validate its efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks which require longer video contexts and that can thus be used effectively for further evaluation of long-range video models.
PDF61December 15, 2024