Ein LMM für effizientes Videoverständnis durch verstärkte Kompression von Videowürfeln
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
April 21, 2025
Autoren: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI
Zusammenfassung
Große Multimodale Modelle (LMMs) nehmen Videobilder einheitlich wahr, was zu
computationaler Ineffizienz bei Videos mit inhärent variierender zeitlicher
Informationsdichte führt. Dieses Artikel stellt Quicksviewer vor, ein LMM mit einem neuen
Wahrnehmungsparadigma, das ein Video ungleichmäßiger Dichte mithilfe von Gumbel Softmax in
variierende Würfel unterteilt, gefolgt von einer einheitlichen Neuabtastung für jeden Würfel, um
effizientes Videoverständnis zu erreichen. Dieser einfache und intuitive Ansatz komprimiert
Videos online dynamisch basierend auf ihrer zeitlichen Dichte, wodurch die raumzeitliche
Redundanz erheblich reduziert wird (insgesamt 45-fache Kompressionsrate), während gleichzeitig
ein effizientes Training mit großem rezeptivem Feld ermöglicht wird. Wir trainieren das Modell
von einem Sprach-Backbone aus in drei progressiven Stufen, von denen jede dank der
Wahrnehmungseffizienz durchschnittlich lange Videos von 420s/1fps einbezieht. Mit nur 0,8M
Video-Text-Proben für das Training übertrifft unser Modell den direkten Baseline-Ansatz mit einer
festen Partitionierungsstrategie um maximal 8,72 in der Genauigkeit, was die Effektivität in der
Leistung demonstriert. Auf Video-MME erreicht Quicksviewer den State-of-the-Art (SOTA) bei
bescheidenen Sequenzlängen mit nur bis zu 5\% der pro Bild benötigten Tokens der Baselines.
Mit diesem Paradigma zeigt die Skalierung der Anzahl der Eingabebilder ein klares Potenzgesetz
der Modellfähigkeiten. Es wird auch empirisch bestätigt, dass die vom Würfelnetzwerk
generierten Segmente zur Analyse kontinuierlicher Ereignisse in Videos beitragen können.
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating
computational inefficiency for videos with inherently varying temporal
information density. This paper present Quicksviewer, an LMM with new
perceiving paradigm that partitions a video of nonuniform density into varying
cubes using Gumbel Softmax, followed by a unified resampling for each cube to
achieve efficient video understanding. This simple and intuitive approach
dynamically compress video online based on its temporal density, significantly
reducing spatiotemporal redundancy (overall 45times compression rate), while
enabling efficient training with large receptive field. We train the model from
a language backbone through three progressive stages, each incorporating
lengthy videos on average of 420s/1fps thanks to the perceiving efficiency.
With only 0.8M total video-text samples for training, our model outperforms the
direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in
accuracy, demonstrating the effectiveness in performance. On Video-MME,
Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\%
of tokens per frame required by baselines. With this paradigm, scaling up the
number of input frames reveals a clear power law of the model capabilities. It
is also empirically verified that the segments generated by the cubing network
can help for analyzing continuous events in videos.Summary
AI-Generated Summary