ChatPaper.aiChatPaper

Ein LMM für effizientes Videoverständnis durch verstärkte Kompression von Videowürfeln

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

April 21, 2025
Autoren: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI

Zusammenfassung

Große Multimodale Modelle (LMMs) nehmen Videobilder einheitlich wahr, was zu computationaler Ineffizienz bei Videos mit inhärent variierender zeitlicher Informationsdichte führt. Dieses Artikel stellt Quicksviewer vor, ein LMM mit einem neuen Wahrnehmungsparadigma, das ein Video ungleichmäßiger Dichte mithilfe von Gumbel Softmax in variierende Würfel unterteilt, gefolgt von einer einheitlichen Neuabtastung für jeden Würfel, um effizientes Videoverständnis zu erreichen. Dieser einfache und intuitive Ansatz komprimiert Videos online dynamisch basierend auf ihrer zeitlichen Dichte, wodurch die raumzeitliche Redundanz erheblich reduziert wird (insgesamt 45-fache Kompressionsrate), während gleichzeitig ein effizientes Training mit großem rezeptivem Feld ermöglicht wird. Wir trainieren das Modell von einem Sprach-Backbone aus in drei progressiven Stufen, von denen jede dank der Wahrnehmungseffizienz durchschnittlich lange Videos von 420s/1fps einbezieht. Mit nur 0,8M Video-Text-Proben für das Training übertrifft unser Modell den direkten Baseline-Ansatz mit einer festen Partitionierungsstrategie um maximal 8,72 in der Genauigkeit, was die Effektivität in der Leistung demonstriert. Auf Video-MME erreicht Quicksviewer den State-of-the-Art (SOTA) bei bescheidenen Sequenzlängen mit nur bis zu 5\% der pro Bild benötigten Tokens der Baselines. Mit diesem Paradigma zeigt die Skalierung der Anzahl der Eingabebilder ein klares Potenzgesetz der Modellfähigkeiten. Es wird auch empirisch bestätigt, dass die vom Würfelnetzwerk generierten Segmente zur Analyse kontinuierlicher Ereignisse in Videos beitragen können.
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating computational inefficiency for videos with inherently varying temporal information density. This paper present Quicksviewer, an LMM with new perceiving paradigm that partitions a video of nonuniform density into varying cubes using Gumbel Softmax, followed by a unified resampling for each cube to achieve efficient video understanding. This simple and intuitive approach dynamically compress video online based on its temporal density, significantly reducing spatiotemporal redundancy (overall 45times compression rate), while enabling efficient training with large receptive field. We train the model from a language backbone through three progressive stages, each incorporating lengthy videos on average of 420s/1fps thanks to the perceiving efficiency. With only 0.8M total video-text samples for training, our model outperforms the direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in accuracy, demonstrating the effectiveness in performance. On Video-MME, Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\% of tokens per frame required by baselines. With this paradigm, scaling up the number of input frames reveals a clear power law of the model capabilities. It is also empirically verified that the segments generated by the cubing network can help for analyzing continuous events in videos.

Summary

AI-Generated Summary

PDF103April 22, 2025