Libérer le potentiel des LLM multimodaux pour l'ancrage spatio-temporel vidéo en zero-shot
Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
September 18, 2025
papers.authors: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
cs.AI
papers.abstract
Le repérage spatio-temporel dans les vidéos (STVG) vise à localiser le tube spatio-temporel d'une vidéo, tel que spécifié par la requête textuelle en entrée. Dans cet article, nous utilisons des modèles de langage multimodaux de grande taille (MLLMs) pour explorer une solution zero-shot dans le cadre du STVG. Nous révélons deux insights clés concernant les MLLMs : (1) les MLLMs ont tendance à attribuer dynamiquement des tokens spéciaux, appelés tokens de repérage, pour ancrer la requête textuelle ; et (2) les MLLMs souffrent souvent d'un repérage sous-optimal en raison de leur incapacité à intégrer pleinement les indices de la requête textuelle (par exemple, les attributs, les actions) pour l'inférence. Sur la base de ces insights, nous proposons un framework zero-shot basé sur les MLLMs pour le STVG, qui inclut des stratégies novatrices de mise en évidence spatio-temporelle décomposée (DSTH) et d'assemblage temporel augmenté (TAS) pour libérer la capacité de raisonnement des MLLMs. La stratégie DSTH commence par découpler la requête originale en sous-requêtes d'attribut et d'action pour interroger l'existence de la cible à la fois spatialement et temporellement. Elle utilise ensuite un module de ré-attention guidée par logit (LRA) pour apprendre des variables latentes en tant qu'invites spatiales et temporelles, en régularisant les prédictions de tokens pour chaque sous-requête. Ces invites mettent en évidence les indices d'attribut et d'action, respectivement, dirigeant l'attention du modèle vers les régions visuelles fiables liées à l'espace et au temps. De plus, comme le repérage spatial par la sous-requête d'attribut doit être temporellement cohérent, nous introduisons la stratégie TAS pour assembler les prédictions en utilisant les images originales de la vidéo et les images temporellement augmentées comme entrées pour améliorer la cohérence temporelle. Nous évaluons notre méthode sur divers MLLMs et montrons qu'elle surpasse les méthodes SOTA sur trois benchmarks courants de STVG.
Le code sera disponible à l'adresse suivante : https://github.com/zaiquanyang/LLaVA_Next_STVG.
English
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal
tube of a video, as specified by the input text query. In this paper, we
utilize multimodal large language models (MLLMs) to explore a zero-shot
solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to
dynamically assign special tokens, referred to as grounding tokens,
for grounding the text query; and (2) MLLMs often suffer from suboptimal
grounding due to the inability to fully integrate the cues in the text query
(e.g., attributes, actions) for inference. Based on these insights, we
propose a MLLM-based zero-shot framework for STVG, which includes novel
decomposed spatio-temporal highlighting (DSTH) and temporal-augmented
assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH
strategy first decouples the original query into attribute and action
sub-queries for inquiring the existence of the target both spatially and
temporally. It then uses a novel logit-guided re-attention (LRA) module to
learn latent variables as spatial and temporal prompts, by regularizing token
predictions for each sub-query. These prompts highlight attribute and action
cues, respectively, directing the model's attention to reliable spatial and
temporal related visual regions. In addition, as the spatial grounding by the
attribute sub-query should be temporally consistent, we introduce the TAS
strategy to assemble the predictions using the original video frames and the
temporal-augmented frames as inputs to help improve temporal consistency. We
evaluate our method on various MLLMs, and show that it outperforms SOTA methods
on three common STVG benchmarks.
The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.