ChatPaper.aiChatPaper

LMM для эффективного понимания видео через усиленное сжатие видеокубов

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

April 21, 2025
Авторы: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI

Аннотация

Крупные мультимодальные модели (LMMs) единообразно воспринимают кадры видео, что приводит к вычислительной неэффективности для видео с изначально изменяющейся плотностью временной информации. В данной статье представлен Quicksviewer — LMM с новой парадигмой восприятия, которая разделяет видео неравномерной плотности на различные кубы с использованием Gumbel Softmax, за которыми следует унифицированная повторная выборка для каждого куба для достижения эффективного понимания видео. Этот простой и интуитивно понятный подход динамически сжимает видео в режиме реального времени на основе его временной плотности, значительно уменьшая пространственно-временную избыточность (общий коэффициент сжатия 45 раз), при этом обеспечивая эффективное обучение с большим рецептивным полем. Мы обучаем модель на основе языкового бэкбона через три прогрессивных этапа, каждый из которых включает длинные видео в среднем продолжительностью 420 секунд/1 кадр в секунду благодаря эффективности восприятия. При использовании всего 0,8 млн видео-текстовых образцов для обучения наша модель превосходит прямой базовый подход, использующий фиксированную стратегию разделения, с максимальным увеличением точности на 8,72, что демонстрирует эффективность в производительности. На Video-MME Quicksviewer достигает состояния SOTA при умеренной длине последовательностей, используя всего до 5% токенов на кадр, необходимых базовым моделям. С этой парадигмой масштабирование количества входных кадров выявляет четкий степенной закон возможностей модели. Также эмпирически подтверждено, что сегменты, сгенерированные сетью кубирования, могут помочь в анализе непрерывных событий в видео.
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating computational inefficiency for videos with inherently varying temporal information density. This paper present Quicksviewer, an LMM with new perceiving paradigm that partitions a video of nonuniform density into varying cubes using Gumbel Softmax, followed by a unified resampling for each cube to achieve efficient video understanding. This simple and intuitive approach dynamically compress video online based on its temporal density, significantly reducing spatiotemporal redundancy (overall 45times compression rate), while enabling efficient training with large receptive field. We train the model from a language backbone through three progressive stages, each incorporating lengthy videos on average of 420s/1fps thanks to the perceiving efficiency. With only 0.8M total video-text samples for training, our model outperforms the direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in accuracy, demonstrating the effectiveness in performance. On Video-MME, Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\% of tokens per frame required by baselines. With this paradigm, scaling up the number of input frames reveals a clear power law of the model capabilities. It is also empirically verified that the segments generated by the cubing network can help for analyzing continuous events in videos.

Summary

AI-Generated Summary

PDF103April 22, 2025