ChatPaper.aiChatPaper

Het Benutten van het Potentieel van Multimodale LLM's voor Zero-Shot Spatio-Temporele Video Grounding

Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

September 18, 2025
Auteurs: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
cs.AI

Samenvatting

Spatio-temporele videolokalisatie (STVG) heeft als doel de spatio-temporele buis van een video te lokaliseren, zoals gespecificeerd door de invoertekstquery. In dit artikel maken we gebruik van multimodale grote taalmodellen (MLLMs) om een zero-shot oplossing in STVG te verkennen. We onthullen twee belangrijke inzichten over MLLMs: (1) MLLMs hebben de neiging om dynamisch speciale tokens, aangeduid als lokalisatietokens, toe te wijzen voor het lokaliseren van de tekstquery; en (2) MLLMs lijden vaak aan suboptimale lokalisatie vanwege het onvermogen om de aanwijzingen in de tekstquery (bijv. attributen, acties) volledig te integreren voor inferentie. Op basis van deze inzichten stellen we een MLLM-gebaseerd zero-shot framework voor STVG voor, dat nieuwe gedecentraliseerde spatio-temporele markering (DSTH) en temporeel-augmented assemblage (TAS) strategieën omvat om het redeneervermogen van MLLMs te ontketenen. De DSTH-strategie ontkoppelt eerst de originele query in attribuut- en actie-subqueries om het bestaan van het doel zowel ruimtelijk als temporeel te onderzoeken. Vervolgens gebruikt het een nieuw logit-gestuurd her-attentiemodule (LRA) om latente variabelen te leren als ruimtelijke en temporele prompts, door tokenvoorspellingen voor elke subquery te regulariseren. Deze prompts markeren respectievelijk attribuut- en actieaanwijzingen, waardoor de aandacht van het model wordt gericht op betrouwbare ruimtelijke en temporeel gerelateerde visuele regio's. Bovendien, aangezien de ruimtelijke lokalisatie door de attribuut-subquery temporeel consistent moet zijn, introduceren we de TAS-strategie om de voorspellingen te assembleren met behulp van de originele videoframes en de temporeel-augmented frames als invoer om de temporele consistentie te verbeteren. We evalueren onze methode op verschillende MLLMs en tonen aan dat deze de SOTA-methoden overtreft op drie veelvoorkomende STVG-benchmarks. De code zal beschikbaar zijn op https://github.com/zaiquanyang/LLaVA_Next_STVG.
English
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal tube of a video, as specified by the input text query. In this paper, we utilize multimodal large language models (MLLMs) to explore a zero-shot solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to dynamically assign special tokens, referred to as grounding tokens, for grounding the text query; and (2) MLLMs often suffer from suboptimal grounding due to the inability to fully integrate the cues in the text query (e.g., attributes, actions) for inference. Based on these insights, we propose a MLLM-based zero-shot framework for STVG, which includes novel decomposed spatio-temporal highlighting (DSTH) and temporal-augmented assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH strategy first decouples the original query into attribute and action sub-queries for inquiring the existence of the target both spatially and temporally. It then uses a novel logit-guided re-attention (LRA) module to learn latent variables as spatial and temporal prompts, by regularizing token predictions for each sub-query. These prompts highlight attribute and action cues, respectively, directing the model's attention to reliable spatial and temporal related visual regions. In addition, as the spatial grounding by the attribute sub-query should be temporally consistent, we introduce the TAS strategy to assemble the predictions using the original video frames and the temporal-augmented frames as inputs to help improve temporal consistency. We evaluate our method on various MLLMs, and show that it outperforms SOTA methods on three common STVG benchmarks. The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.
PDF62September 19, 2025