Das Potenzial multimodaler LLMs für Zero-Shot Spatio-Temporale Video-Verankerung freisetzen
Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
September 18, 2025
papers.authors: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
cs.AI
papers.abstract
Spatio-temporal Video Grounding (STVG) zielt darauf ab, die spatio-temporale Röhre eines Videos zu lokalisieren, wie sie durch die eingegebene Textabfrage spezifiziert wird. In diesem Artikel nutzen wir multimodale Large Language Models (MLLMs), um eine Zero-Shot-Lösung für STVG zu erforschen. Wir enthüllen zwei zentrale Erkenntnisse über MLLMs: (1) MLLMs neigen dazu, dynamisch spezielle Tokens, sogenannte Grounding-Tokens, zuzuweisen, um die Textabfrage zu verankern; und (2) MLLMs leiden oft unter suboptimaler Verankerung, da sie die Hinweise in der Textabfrage (z.B. Attribute, Aktionen) nicht vollständig integrieren können, um Rückschlüsse zu ziehen. Basierend auf diesen Erkenntnissen schlagen wir ein MLLM-basiertes Zero-Shot-Framework für STVG vor, das neuartige Strategien zur dekomponierten spatio-temporalen Hervorhebung (DSTH) und zur temporal-augmentierten Zusammenführung (TAS) enthält, um die Schlussfolgerungsfähigkeit von MLLMs freizusetzen. Die DSTH-Strategie entkoppelt zunächst die ursprüngliche Abfrage in Attribut- und Aktions-Unterabfragen, um die Existenz des Ziels sowohl räumlich als auch zeitlich zu untersuchen. Anschließend verwendet sie ein neuartiges Logit-gesteuertes Re-Attention (LRA)-Modul, um latente Variablen als räumliche und zeitliche Prompts zu lernen, indem die Token-Vorhersagen für jede Unterabfrage regularisiert werden. Diese Prompts heben jeweils Attribut- und Aktionshinweise hervor und lenken die Aufmerksamkeit des Modells auf zuverlässige räumliche und zeitlich verwandte visuelle Regionen. Zusätzlich führen wir die TAS-Strategie ein, um die Vorhersagen unter Verwendung der ursprünglichen Videobilder und der temporal-augmentierten Bilder als Eingaben zusammenzuführen, um die zeitliche Konsistenz zu verbessern, da die räumliche Verankerung durch die Attribut-Unterabfrage zeitlich konsistent sein sollte. Wir evaluieren unsere Methode auf verschiedenen MLLMs und zeigen, dass sie State-of-the-Art-Methoden auf drei gängigen STVG-Benchmarks übertrifft.
Der Code wird unter https://github.com/zaiquanyang/LLaVA_Next_STVG verfügbar sein.
English
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal
tube of a video, as specified by the input text query. In this paper, we
utilize multimodal large language models (MLLMs) to explore a zero-shot
solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to
dynamically assign special tokens, referred to as grounding tokens,
for grounding the text query; and (2) MLLMs often suffer from suboptimal
grounding due to the inability to fully integrate the cues in the text query
(e.g., attributes, actions) for inference. Based on these insights, we
propose a MLLM-based zero-shot framework for STVG, which includes novel
decomposed spatio-temporal highlighting (DSTH) and temporal-augmented
assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH
strategy first decouples the original query into attribute and action
sub-queries for inquiring the existence of the target both spatially and
temporally. It then uses a novel logit-guided re-attention (LRA) module to
learn latent variables as spatial and temporal prompts, by regularizing token
predictions for each sub-query. These prompts highlight attribute and action
cues, respectively, directing the model's attention to reliable spatial and
temporal related visual regions. In addition, as the spatial grounding by the
attribute sub-query should be temporally consistent, we introduce the TAS
strategy to assemble the predictions using the original video frames and the
temporal-augmented frames as inputs to help improve temporal consistency. We
evaluate our method on various MLLMs, and show that it outperforms SOTA methods
on three common STVG benchmarks.
The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.