Het Benutten van het Potentieel van Multimodale LLM's voor Zero-Shot Spatio-Temporele Video Grounding
Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
September 18, 2025
Auteurs: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
cs.AI
Samenvatting
Spatio-temporele videolokalisatie (STVG) heeft als doel de spatio-temporele buis van een video te lokaliseren, zoals gespecificeerd door de invoertekstquery. In dit artikel maken we gebruik van multimodale grote taalmodellen (MLLMs) om een zero-shot oplossing in STVG te verkennen. We onthullen twee belangrijke inzichten over MLLMs: (1) MLLMs hebben de neiging om dynamisch speciale tokens, aangeduid als lokalisatietokens, toe te wijzen voor het lokaliseren van de tekstquery; en (2) MLLMs lijden vaak aan suboptimale lokalisatie vanwege het onvermogen om de aanwijzingen in de tekstquery (bijv. attributen, acties) volledig te integreren voor inferentie. Op basis van deze inzichten stellen we een MLLM-gebaseerd zero-shot framework voor STVG voor, dat nieuwe gedecentraliseerde spatio-temporele markering (DSTH) en temporeel-augmented assemblage (TAS) strategieën omvat om het redeneervermogen van MLLMs te ontketenen. De DSTH-strategie ontkoppelt eerst de originele query in attribuut- en actie-subqueries om het bestaan van het doel zowel ruimtelijk als temporeel te onderzoeken. Vervolgens gebruikt het een nieuw logit-gestuurd her-attentiemodule (LRA) om latente variabelen te leren als ruimtelijke en temporele prompts, door tokenvoorspellingen voor elke subquery te regulariseren. Deze prompts markeren respectievelijk attribuut- en actieaanwijzingen, waardoor de aandacht van het model wordt gericht op betrouwbare ruimtelijke en temporeel gerelateerde visuele regio's. Bovendien, aangezien de ruimtelijke lokalisatie door de attribuut-subquery temporeel consistent moet zijn, introduceren we de TAS-strategie om de voorspellingen te assembleren met behulp van de originele videoframes en de temporeel-augmented frames als invoer om de temporele consistentie te verbeteren. We evalueren onze methode op verschillende MLLMs en tonen aan dat deze de SOTA-methoden overtreft op drie veelvoorkomende STVG-benchmarks. De code zal beschikbaar zijn op https://github.com/zaiquanyang/LLaVA_Next_STVG.
English
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal
tube of a video, as specified by the input text query. In this paper, we
utilize multimodal large language models (MLLMs) to explore a zero-shot
solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to
dynamically assign special tokens, referred to as grounding tokens,
for grounding the text query; and (2) MLLMs often suffer from suboptimal
grounding due to the inability to fully integrate the cues in the text query
(e.g., attributes, actions) for inference. Based on these insights, we
propose a MLLM-based zero-shot framework for STVG, which includes novel
decomposed spatio-temporal highlighting (DSTH) and temporal-augmented
assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH
strategy first decouples the original query into attribute and action
sub-queries for inquiring the existence of the target both spatially and
temporally. It then uses a novel logit-guided re-attention (LRA) module to
learn latent variables as spatial and temporal prompts, by regularizing token
predictions for each sub-query. These prompts highlight attribute and action
cues, respectively, directing the model's attention to reliable spatial and
temporal related visual regions. In addition, as the spatial grounding by the
attribute sub-query should be temporally consistent, we introduce the TAS
strategy to assemble the predictions using the original video frames and the
temporal-augmented frames as inputs to help improve temporal consistency. We
evaluate our method on various MLLMs, and show that it outperforms SOTA methods
on three common STVG benchmarks.
The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.