Token-effizientes Verständnis langer Videos für multimodale LLMs
Token-Efficient Long Video Understanding for Multimodal LLMs
March 6, 2025
Autoren: Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon
cs.AI
Zusammenfassung
Jüngste Fortschritte in videobasierten multimodalen großen Sprachmodellen (Video-LLMs) haben das Verständnis von Videos erheblich verbessert, indem Videos als Sequenzen von Bildern verarbeitet werden. Viele bestehende Methoden behandeln die Bilder jedoch unabhängig im visuellen Backbone und verfügen über keine explizite zeitliche Modellierung, was ihre Fähigkeit einschränkt, dynamische Muster zu erfassen und lange Videos effizient zu verarbeiten. Um diese Einschränkungen zu überwinden, stellen wir STORM (Spatiotemporal TOken Reduction for Multimodal LLMs) vor, eine neuartige Architektur, die einen speziellen temporalen Encoder zwischen den Bild-Encoder und das LLM integriert. Unser temporaler Encoder nutzt das Mamba State Space Model, um zeitliche Informationen in Bild-Token zu integrieren und angereicherte Repräsentationen zu erzeugen, die die Dynamik zwischen den Bildern über die gesamte Videosequenz hinweg bewahren. Diese angereicherte Kodierung verbessert nicht nur die Fähigkeiten zur Videoanalyse, sondern ermöglicht auch effektive Token-Reduktionsstrategien, einschließlich Testzeit-Sampling und trainingsbasierter zeitlicher und räumlicher Pooling, wodurch der Rechenaufwand für das LLM erheblich reduziert wird, ohne wichtige zeitliche Informationen zu opfern. Durch die Integration dieser Techniken reduziert unser Ansatz gleichzeitig die Trainings- und Inferenzlatenz und verbessert die Leistung, was ein effizientes und robustes Verständnis von Videos über längere zeitliche Kontexte ermöglicht. Umfangreiche Evaluierungen zeigen, dass STORM state-of-the-art Ergebnisse in verschiedenen Benchmarks für das Verständnis langer Videos erzielt (mehr als 5 % Verbesserung bei MLVU und LongVideoBench), während die Rechenkosten um bis zu das 8-fache und die Dekodierungslatenz um das 2,4- bis 2,9-fache für eine feste Anzahl von Eingabebildern reduziert werden. Die Projektseite ist verfügbar unter https://research.nvidia.com/labs/lpr/storm.
English
Recent advances in video-based multimodal large language models (Video-LLMs)
have significantly improved video understanding by processing videos as
sequences of image frames. However, many existing methods treat frames
independently in the vision backbone, lacking explicit temporal modeling, which
limits their ability to capture dynamic patterns and efficiently handle long
videos. To address these limitations, we introduce STORM
(Spatiotemporal TOken Reduction for
Multimodal LLMs), a novel architecture incorporating a dedicated
temporal encoder between the image encoder and the LLM. Our temporal encoder
leverages the Mamba State Space Model to integrate temporal information into
image tokens, generating enriched representations that preserve inter-frame
dynamics across the entire video sequence. This enriched encoding not only
enhances video reasoning capabilities but also enables effective token
reduction strategies, including test-time sampling and training-based temporal
and spatial pooling, substantially reducing computational demands on the LLM
without sacrificing key temporal information. By integrating these techniques,
our approach simultaneously reduces training and inference latency while
improving performance, enabling efficient and robust video understanding over
extended temporal contexts. Extensive evaluations show that STORM achieves
state-of-the-art results across various long video understanding benchmarks
(more than 5\% improvement on MLVU and LongVideoBench) while reducing the
computation costs by up to 8times and the decoding latency by
2.4-2.9times for the fixed numbers of input frames. Project page is
available at https://research.nvidia.com/labs/lpr/stormSummary
AI-Generated Summary