ChatPaper.aiChatPaper

Tekstgeconditioneerde Herbemonstering voor Langdurige Videobegrip

Text-Conditioned Resampler For Long Form Video Understanding

December 19, 2023
Auteurs: Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
cs.AI

Samenvatting

Video's vormen een zeer redundante databron en vaak is het voldoende om een paar belangrijke momenten te identificeren om een bepaalde taak op te lossen. In dit artikel presenteren we een tekst-geconditioneerde video-resampler (TCR) module die gebruikmaakt van een vooraf getrainde en bevroren visuele encoder en een groot taalmodel (LLM) om lange videosequenties voor een taak te verwerken. TCR lokaliseert relevante visuele kenmerken uit de video op basis van een tekstconditie en biedt deze aan een LLM aan om een tekstreactie te genereren. Dankzij het lichtgewicht ontwerp en het gebruik van cross-attention kan TCR meer dan 100 frames tegelijk verwerken, waardoor het model veel langere videofragmenten kan gebruiken dan eerdere werken. We leveren de volgende bijdragen: (i) we ontwerpen een transformer-gebaseerde samplingarchitectuur die lange video's kan verwerken op basis van een taak, samen met een trainingsmethode die het mogelijk maakt om vooraf getrainde visuele en taalmodellen te verbinden; (ii) we valideren empirisch de effectiviteit ervan op een breed scala aan evaluatietaken en stellen een nieuwe state-of-the-art in op NextQA, EgoSchema en de EGO4D-LTA challenge; en (iii) we bepalen taken die langere videocontexten vereisen en die dus effectief kunnen worden gebruikt voor verdere evaluatie van langeafstandsvideomodellen.
English
Videos are highly redundant data source and it is often enough to identify a few key moments to solve any given task. In this paper, we present a text-conditioned video resampler (TCR) module that uses a pre-trained and frozen visual encoder and large language model (LLM) to process long video sequences for a task. TCR localises relevant visual features from the video given a text condition and provides them to a LLM to generate a text response. Due to its lightweight design and use of cross-attention, TCR can process more than 100 frames at a time allowing the model to use much longer chunks of video than earlier works. We make the following contributions: (i) we design a transformer-based sampling architecture that can process long videos conditioned on a task, together with a training method that enables it to bridge pre-trained visual and language models; (ii) we empirically validate its efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks which require longer video contexts and that can thus be used effectively for further evaluation of long-range video models.
PDF61December 15, 2024