Un LMM pour une compréhension vidéo efficace via la compression renforcée de cubes vidéo
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
April 21, 2025
Auteurs: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI
Résumé
Les modèles multimodaux de grande taille (LMMs) perçoivent uniformément les images vidéo, ce qui entraîne une inefficacité computationnelle pour les vidéos présentant une densité d'information temporelle intrinsèquement variable. Cet article présente Quicksviewer, un LMM doté d'un nouveau paradigme de perception qui partitionne une vidéo de densité non uniforme en cubes variables à l'aide de Gumbel Softmax, suivi d'un rééchantillonnage unifié pour chaque cube afin de parvenir à une compréhension vidéo efficace. Cette approche simple et intuitive compresse dynamiquement la vidéo en ligne en fonction de sa densité temporelle, réduisant significativement la redondance spatiotemporelle (taux de compression global de 45 fois), tout en permettant un entraînement efficace avec un grand champ réceptif. Nous entraînons le modèle à partir d'une architecture linguistique à travers trois étapes progressives, chacune incorporant des vidéos longues en moyenne de 420s/1fps grâce à l'efficacité de perception. Avec seulement 0,8 million d'échantillons vidéo-texte pour l'entraînement, notre modèle surpasse le modèle de référence utilisant une stratégie de partitionnement fixe avec une précision maximale de 8,72, démontrant ainsi son efficacité en termes de performance. Sur Video-MME, Quicksviewer atteint l'état de l'art (SOTA) pour des longueurs de séquence modestes en utilisant seulement jusqu'à 5 % des tokens par image requis par les modèles de référence. Avec ce paradigme, l'augmentation du nombre d'images d'entrée révèle une loi de puissance claire des capacités du modèle. Il est également vérifié empiriquement que les segments générés par le réseau de cubage peuvent aider à analyser les événements continus dans les vidéos.
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating
computational inefficiency for videos with inherently varying temporal
information density. This paper present Quicksviewer, an LMM with new
perceiving paradigm that partitions a video of nonuniform density into varying
cubes using Gumbel Softmax, followed by a unified resampling for each cube to
achieve efficient video understanding. This simple and intuitive approach
dynamically compress video online based on its temporal density, significantly
reducing spatiotemporal redundancy (overall 45times compression rate), while
enabling efficient training with large receptive field. We train the model from
a language backbone through three progressive stages, each incorporating
lengthy videos on average of 420s/1fps thanks to the perceiving efficiency.
With only 0.8M total video-text samples for training, our model outperforms the
direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in
accuracy, demonstrating the effectiveness in performance. On Video-MME,
Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\%
of tokens per frame required by baselines. With this paradigm, scaling up the
number of input frames reveals a clear power law of the model capabilities. It
is also empirically verified that the segments generated by the cubing network
can help for analyzing continuous events in videos.