ChatPaper.aiChatPaper

Um LMM para Compreensão Eficiente de Vídeo por meio de Compressão Reforçada de Cubos de Vídeo

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

April 21, 2025
Autores: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI

Resumo

Modelos Multimodais de Grande Escala (LMMs) percebem uniformemente os quadros de vídeo, criando ineficiência computacional para vídeos com densidade de informação temporal inerentemente variável. Este artigo apresenta o Quicksviewer, um LMM com um novo paradigma de percepção que particiona um vídeo de densidade não uniforme em cubos variáveis usando Gumbel Softmax, seguido por uma reamostragem unificada para cada cubo, a fim de alcançar uma compreensão eficiente de vídeo. Essa abordagem simples e intuitiva comprime dinamicamente o vídeo online com base em sua densidade temporal, reduzindo significativamente a redundância espaço-temporal (taxa de compressão geral de 45 vezes), ao mesmo tempo em que permite um treinamento eficiente com um grande campo receptivo. Treinamos o modelo a partir de uma base linguística por meio de três estágios progressivos, cada um incorporando vídeos longos com média de 420s/1fps, graças à eficiência de percepção. Com apenas 0,8M de amostras vídeo-texto totais para treinamento, nosso modelo supera a linha de base direta que emprega uma estratégia de particionamento fixo em até 8,72 em precisão, demonstrando a eficácia no desempenho. No Video-MME, o Quicksviewer alcança o estado da arte (SOTA) sob comprimentos de sequência modestos, usando apenas até 5% dos tokens por quadro exigidos pelas linhas de base. Com esse paradigma, a ampliação do número de quadros de entrada revela uma clara lei de potência das capacidades do modelo. Também foi empiricamente verificado que os segmentos gerados pela rede de cubagem podem auxiliar na análise de eventos contínuos em vídeos.
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating computational inefficiency for videos with inherently varying temporal information density. This paper present Quicksviewer, an LMM with new perceiving paradigm that partitions a video of nonuniform density into varying cubes using Gumbel Softmax, followed by a unified resampling for each cube to achieve efficient video understanding. This simple and intuitive approach dynamically compress video online based on its temporal density, significantly reducing spatiotemporal redundancy (overall 45times compression rate), while enabling efficient training with large receptive field. We train the model from a language backbone through three progressive stages, each incorporating lengthy videos on average of 420s/1fps thanks to the perceiving efficiency. With only 0.8M total video-text samples for training, our model outperforms the direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in accuracy, demonstrating the effectiveness in performance. On Video-MME, Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\% of tokens per frame required by baselines. With this paradigm, scaling up the number of input frames reveals a clear power law of the model capabilities. It is also empirically verified that the segments generated by the cubing network can help for analyzing continuous events in videos.

Summary

AI-Generated Summary

PDF103April 22, 2025