Un Modelo de Lenguaje Multimodal para la Comprensión Eficiente de Videos mediante la Compresión Reforzada de Cubos de Video
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
April 21, 2025
Autores: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI
Resumen
Los Modelos Multimodales Grandes (LMMs) perciben de manera uniforme los fotogramas de video, lo que genera ineficiencia computacional para videos con densidad de información temporal inherentemente variable. Este artículo presenta Quicksviewer, un LMM con un nuevo paradigma de percepción que divide un video de densidad no uniforme en cubos variables utilizando Gumbel Softmax, seguido de un remuestreo unificado para cada cubo, logrando una comprensión eficiente del video. Este enfoque simple e intuitivo comprime dinámicamente el video en línea según su densidad temporal, reduciendo significativamente la redundancia espacio-temporal (tasa de compresión general de 45 veces), mientras permite un entrenamiento eficiente con un campo receptivo grande. Entrenamos el modelo desde un backbone de lenguaje a través de tres etapas progresivas, cada una incorporando videos extensos con un promedio de 420s/1fps gracias a la eficiencia de percepción. Con solo 0.8M de muestras video-texto para el entrenamiento, nuestro modelo supera al baseline directo que emplea una estrategia de partición fija en un máximo de 8.72 en precisión, demostrando la efectividad en el rendimiento. En Video-MME, Quicksviewer alcanza el estado del arte (SOTA) bajo longitudes de secuencia modestas utilizando solo hasta el 5\% de los tokens por fotograma requeridos por los baselines. Con este paradigma, escalar el número de fotogramas de entrada revela una clara ley de potencia de las capacidades del modelo. También se verifica empíricamente que los segmentos generados por la red de cubificación pueden ayudar a analizar eventos continuos en videos.
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating
computational inefficiency for videos with inherently varying temporal
information density. This paper present Quicksviewer, an LMM with new
perceiving paradigm that partitions a video of nonuniform density into varying
cubes using Gumbel Softmax, followed by a unified resampling for each cube to
achieve efficient video understanding. This simple and intuitive approach
dynamically compress video online based on its temporal density, significantly
reducing spatiotemporal redundancy (overall 45times compression rate), while
enabling efficient training with large receptive field. We train the model from
a language backbone through three progressive stages, each incorporating
lengthy videos on average of 420s/1fps thanks to the perceiving efficiency.
With only 0.8M total video-text samples for training, our model outperforms the
direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in
accuracy, demonstrating the effectiveness in performance. On Video-MME,
Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\%
of tokens per frame required by baselines. With this paradigm, scaling up the
number of input frames reveals a clear power law of the model capabilities. It
is also empirically verified that the segments generated by the cubing network
can help for analyzing continuous events in videos.Summary
AI-Generated Summary