ChatPaper.aiChatPaper

VideoLLaMB: Compreensão de Vídeo de Longo Contexto com Memória Recorrente

VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

September 2, 2024
Autores: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
cs.AI

Resumo

Os avanços recentes em modelos de vídeo-linguagem em larga escala têm mostrado um potencial significativo para o planejamento em tempo real e interações detalhadas. No entanto, suas altas demandas computacionais e a escassez de conjuntos de dados anotados limitam sua praticidade para pesquisadores acadêmicos. Neste trabalho, apresentamos o VideoLLaMB, um novo framework que utiliza tokens de memória temporal em camadas de ponte para permitir a codificação de sequências de vídeo inteiras juntamente com dados visuais históricos, preservando efetivamente a continuidade semântica e aprimorando o desempenho do modelo em várias tarefas. Esta abordagem inclui tokens de memória recorrentes e um algoritmo SceneTilling, que segmenta vídeos em unidades semânticas independentes para preservar a integridade semântica. Empiricamente, o VideoLLaMB supera significativamente os modelos de vídeo-linguagem existentes, demonstrando uma melhoria de 5,5 pontos em relação aos concorrentes em três benchmarks de VideoQA e 2,06 pontos em planejamento egocêntrico. Resultados abrangentes no MVBench mostram que o VideoLLaMB-7B alcança resultados significativamente melhores do que os modelos 7B anteriores do mesmo LLM. Notavelmente, mantém um desempenho robusto como o PLLaVA mesmo com o aumento do comprimento do vídeo em até 8 vezes. Além disso, os resultados de recuperação de quadros em nosso benchmark Needle in a Video Haystack (NIAVH) especializado validam ainda mais a capacidade do VideoLLaMB de identificar com precisão quadros específicos em vídeos extensos. Nosso algoritmo SceneTilling também possibilita a geração de legendas de vídeo em tempo real diretamente, sem a necessidade de treinamento adicional. Em termos de eficiência, o VideoLLaMB, treinado com 16 quadros, suporta até 320 quadros em uma única GPU Nvidia A100 com escalonamento linear de memória da GPU, garantindo alto desempenho e custo-efetividade, estabelecendo assim uma nova base para modelos de vídeo-linguagem de longa duração em aplicações acadêmicas e práticas.
English
Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens within bridge layers to allow for the encoding of entire video sequences alongside historical visual data, effectively preserving semantic continuity and enhancing model performance across various tasks. This approach includes recurrent memory tokens and a SceneTilling algorithm, which segments videos into independent semantic units to preserve semantic integrity. Empirically, VideoLLaMB significantly outstrips existing video-language models, demonstrating a 5.5 points improvement over its competitors across three VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive results on the MVBench show that VideoLLaMB-7B achieves markedly better results than previous 7B models of same LLM. Remarkably, it maintains robust performance as PLLaVA even as video length increases up to 8 times. Besides, the frame retrieval results on our specialized Needle in a Video Haystack (NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately identifying specific frames within lengthy videos. Our SceneTilling algorithm also enables the generation of streaming video captions directly, without necessitating additional training. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language models in both academic and practical applications.

Summary

AI-Generated Summary

PDF286November 16, 2024