ChatPaper.aiChatPaper

VideoLLaMB: Долгосрочное понимание видео с рекуррентной памятью

VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

September 2, 2024
Авторы: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
cs.AI

Аннотация

Последние достижения в области моделей видео-языка большого масштаба показали значительный потенциал для планирования в реальном времени и детального взаимодействия. Однако их высокие вычислительные требования и недостаток размеченных наборов данных ограничивают их практичность для академических исследователей. В данной работе мы представляем VideoLLaMB, новую структуру, которая использует временные токены памяти в мостовых слоях для кодирования целых последовательностей видео наряду с историческими визуальными данными, эффективно сохраняя семантическую непрерывность и улучшая производительность модели в различных задачах. Этот подход включает в себя рекуррентные токены памяти и алгоритм SceneTilling, который разбивает видео на независимые семантические блоки для сохранения семантической целостности. Эмпирически VideoLLaMB значительно превосходит существующие модели видео-языка, демонстрируя улучшение на 5,5 пункта по сравнению с конкурентами на трех бенчмарках VideoQA и на 2,06 пункта в планировании от первого лица. Комплексные результаты на MVBench показывают, что VideoLLaMB-7B достигает значительно лучших результатов, чем предыдущие модели 7B той же LLM. Замечательно, она поддерживает стабильную производительность, как PLLaVA, даже при увеличении длины видео вплоть до 8 раз. Кроме того, результаты по извлечению кадров нашего специализированного бенчмарка "Игла в видео сене" (NIAVH) дополнительно подтверждают мастерство VideoLLaMB в точной идентификации конкретных кадров в длинных видео. Наш алгоритм SceneTilling также позволяет генерировать подписи к потоковому видео напрямую, без необходимости дополнительного обучения. В терминах эффективности VideoLLaMB, обученная на 16 кадрах, поддерживает до 320 кадров на одном графическом процессоре Nvidia A100 с линейным масштабированием памяти GPU, обеспечивая как высокую производительность, так и экономичность, тем самым заложив новые основы для моделей длинных видео-языка как в академических, так и в практических приложениях.
English
Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens within bridge layers to allow for the encoding of entire video sequences alongside historical visual data, effectively preserving semantic continuity and enhancing model performance across various tasks. This approach includes recurrent memory tokens and a SceneTilling algorithm, which segments videos into independent semantic units to preserve semantic integrity. Empirically, VideoLLaMB significantly outstrips existing video-language models, demonstrating a 5.5 points improvement over its competitors across three VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive results on the MVBench show that VideoLLaMB-7B achieves markedly better results than previous 7B models of same LLM. Remarkably, it maintains robust performance as PLLaVA even as video length increases up to 8 times. Besides, the frame retrieval results on our specialized Needle in a Video Haystack (NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately identifying specific frames within lengthy videos. Our SceneTilling algorithm also enables the generation of streaming video captions directly, without necessitating additional training. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language models in both academic and practical applications.

Summary

AI-Generated Summary

PDF286November 16, 2024