ChatPaper.aiChatPaper

Un LMM per una comprensione efficiente dei video tramite compressione rinforzata di cubi video

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

April 21, 2025
Autori: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI

Abstract

I Large Multimodal Models (LMM) percepiscono uniformemente i fotogrammi video, creando inefficienze computazionali per video con densità di informazioni temporali intrinsecamente variabile. Questo articolo presenta Quicksviewer, un LMM con un nuovo paradigma di percezione che suddivide un video a densità non uniforme in cubi variabili utilizzando Gumbel Softmax, seguita da un ricampionamento unificato per ciascun cubo per ottenere una comprensione video efficiente. Questo approccio semplice e intuitivo comprime dinamicamente il video online in base alla sua densità temporale, riducendo significativamente la ridondanza spaziotemporale (tasso di compressione complessivo di 45 volte), consentendo al contempo un addestramento efficiente con un ampio campo recettivo. Addestriamo il modello da un backbone linguistico attraverso tre fasi progressive, ciascuna delle quali incorpora video lunghi in media di 420s/1fps grazie all'efficienza di percezione. Con solo 0,8 milioni di campioni video-testo totali per l'addestramento, il nostro modello supera il baseline diretto che utilizza una strategia di partizionamento fissa di un massimo di 8,72 in accuratezza, dimostrando l'efficacia delle prestazioni. Su Video-MME, Quicksviewer raggiunge lo stato dell'arte (SOTA) con lunghezze di sequenza modeste utilizzando solo fino al 5% dei token per fotogramma richiesti dai baseline. Con questo paradigma, aumentare il numero di fotogrammi in ingresso rivela una chiara legge di potenza delle capacità del modello. È inoltre verificato empiricamente che i segmenti generati dalla rete di cubatura possono aiutare nell'analisi di eventi continui nei video.
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating computational inefficiency for videos with inherently varying temporal information density. This paper present Quicksviewer, an LMM with new perceiving paradigm that partitions a video of nonuniform density into varying cubes using Gumbel Softmax, followed by a unified resampling for each cube to achieve efficient video understanding. This simple and intuitive approach dynamically compress video online based on its temporal density, significantly reducing spatiotemporal redundancy (overall 45times compression rate), while enabling efficient training with large receptive field. We train the model from a language backbone through three progressive stages, each incorporating lengthy videos on average of 420s/1fps thanks to the perceiving efficiency. With only 0.8M total video-text samples for training, our model outperforms the direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in accuracy, demonstrating the effectiveness in performance. On Video-MME, Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\% of tokens per frame required by baselines. With this paradigm, scaling up the number of input frames reveals a clear power law of the model capabilities. It is also empirically verified that the segments generated by the cubing network can help for analyzing continuous events in videos.

Summary

AI-Generated Summary

PDF103April 22, 2025