Token-effizientes Verständnis langer Videos für multimodale LLMs

Zusammenfassung

Jüngste Fortschritte in videobasierten multimodalen großen Sprachmodellen (Video-LLMs) haben das Verständnis von Videos erheblich verbessert, indem Videos als Sequenzen von Bildern verarbeitet werden. Viele bestehende Methoden behandeln die Bilder jedoch unabhängig im visuellen Backbone und verfügen über keine explizite zeitliche Modellierung, was ihre Fähigkeit einschränkt, dynamische Muster zu erfassen und lange Videos effizient zu verarbeiten. Um diese Einschränkungen zu überwinden, stellen wir STORM (Spatiotemporal TOken Reduction for Multimodal LLMs) vor, eine neuartige Architektur, die einen speziellen temporalen Encoder zwischen den Bild-Encoder und das LLM integriert. Unser temporaler Encoder nutzt das Mamba State Space Model, um zeitliche Informationen in Bild-Token zu integrieren und angereicherte Repräsentationen zu erzeugen, die die Dynamik zwischen den Bildern über die gesamte Videosequenz hinweg bewahren. Diese angereicherte Kodierung verbessert nicht nur die Fähigkeiten zur Videoanalyse, sondern ermöglicht auch effektive Token-Reduktionsstrategien, einschließlich Testzeit-Sampling und trainingsbasierter zeitlicher und räumlicher Pooling, wodurch der Rechenaufwand für das LLM erheblich reduziert wird, ohne wichtige zeitliche Informationen zu opfern. Durch die Integration dieser Techniken reduziert unser Ansatz gleichzeitig die Trainings- und Inferenzlatenz und verbessert die Leistung, was ein effizientes und robustes Verständnis von Videos über längere zeitliche Kontexte ermöglicht. Umfangreiche Evaluierungen zeigen, dass STORM state-of-the-art Ergebnisse in verschiedenen Benchmarks für das Verständnis langer Videos erzielt (mehr als 5 % Verbesserung bei MLVU und LongVideoBench), während die Rechenkosten um bis zu das 8-fache und die Dekodierungslatenz um das 2,4- bis 2,9-fache für eine feste Anzahl von Eingabebildern reduziert werden. Die Projektseite ist verfügbar unter https://research.nvidia.com/labs/lpr/storm.

English

Recent advances in video-based multimodal large language models (Video-LLMs) have significantly improved video understanding by processing videos as sequences of image frames. However, many existing methods treat frames independently in the vision backbone, lacking explicit temporal modeling, which limits their ability to capture dynamic patterns and efficiently handle long videos. To address these limitations, we introduce STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), a novel architecture incorporating a dedicated temporal encoder between the image encoder and the LLM. Our temporal encoder leverages the Mamba State Space Model to integrate temporal information into image tokens, generating enriched representations that preserve inter-frame dynamics across the entire video sequence. This enriched encoding not only enhances video reasoning capabilities but also enables effective token reduction strategies, including test-time sampling and training-based temporal and spatial pooling, substantially reducing computational demands on the LLM without sacrificing key temporal information. By integrating these techniques, our approach simultaneously reduces training and inference latency while improving performance, enabling efficient and robust video understanding over extended temporal contexts. Extensive evaluations show that STORM achieves state-of-the-art results across various long video understanding benchmarks (more than 5\% improvement on MLVU and LongVideoBench) while reducing the computation costs by up to 8times and the decoding latency by 2.4-2.9times for the fixed numbers of input frames. Project page is available at https://research.nvidia.com/labs/lpr/storm

Token-effizientes Verständnis langer Videos für multimodale LLMs

Token-Efficient Long Video Understanding for Multimodal LLMs

Zusammenfassung

Support