Sfruttare il Potenziale dei Modelli Linguistici Multimodali per il Grounding Spazio-Temporale Zero-Shot nei Video
Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
September 18, 2025
Autori: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
cs.AI
Abstract
Il grounding spazio-temporale nei video (STVG) mira a localizzare il tubo spazio-temporale di un video, come specificato dalla query testuale in input. In questo articolo, utilizziamo modelli linguistici multimodali di grandi dimensioni (MLLMs) per esplorare una soluzione zero-shot nello STVG. Riveliamo due intuizioni chiave sugli MLLMs: (1) gli MLLMs tendono ad assegnare dinamicamente token speciali, denominati token di grounding, per ancorare la query testuale; e (2) gli MLLMs spesso soffrono di un grounding subottimale a causa dell’incapacità di integrare pienamente gli indizi presenti nella query testuale (ad esempio, attributi, azioni) per l’inferenza. Sulla base di queste intuizioni, proponiamo un framework zero-shot basato su MLLM per lo STVG, che include nuove strategie di evidenziazione spazio-temporale decomposta (DSTH) e di assemblaggio temporale-aumentato (TAS) per liberare la capacità di ragionamento degli MLLMs. La strategia DSTH scompone prima la query originale in sotto-query di attributi e azioni per indagare l’esistenza del target sia spazialmente che temporalmente. Utilizza quindi un modulo di riattenzione guidata da logit (LRA) per apprendere variabili latenti come prompt spaziali e temporali, regolarizzando le previsioni dei token per ciascuna sotto-query. Questi prompt evidenziano rispettivamente gli indizi di attributi e azioni, dirigendo l’attenzione del modello verso regioni visive affidabili correlate allo spazio e al tempo. Inoltre, poiché il grounding spaziale della sotto-query di attributi dovrebbe essere temporalmente coerente, introduciamo la strategia TAS per assemblare le previsioni utilizzando i frame originali del video e i frame temporali aumentati come input per migliorare la coerenza temporale. Valutiamo il nostro metodo su vari MLLMs e dimostriamo che supera i metodi SOTA su tre benchmark comuni di STVG. Il codice sarà disponibile all’indirizzo https://github.com/zaiquanyang/LLaVA_Next_STVG.
English
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal
tube of a video, as specified by the input text query. In this paper, we
utilize multimodal large language models (MLLMs) to explore a zero-shot
solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to
dynamically assign special tokens, referred to as grounding tokens,
for grounding the text query; and (2) MLLMs often suffer from suboptimal
grounding due to the inability to fully integrate the cues in the text query
(e.g., attributes, actions) for inference. Based on these insights, we
propose a MLLM-based zero-shot framework for STVG, which includes novel
decomposed spatio-temporal highlighting (DSTH) and temporal-augmented
assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH
strategy first decouples the original query into attribute and action
sub-queries for inquiring the existence of the target both spatially and
temporally. It then uses a novel logit-guided re-attention (LRA) module to
learn latent variables as spatial and temporal prompts, by regularizing token
predictions for each sub-query. These prompts highlight attribute and action
cues, respectively, directing the model's attention to reliable spatial and
temporal related visual regions. In addition, as the spatial grounding by the
attribute sub-query should be temporally consistent, we introduce the TAS
strategy to assemble the predictions using the original video frames and the
temporal-augmented frames as inputs to help improve temporal consistency. We
evaluate our method on various MLLMs, and show that it outperforms SOTA methods
on three common STVG benchmarks.
The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.