Desbloqueando el Potencial de los Modelos de Lenguaje Multimodales para la Localización Espacio-Temporal de Video en Escenarios de Cero Disparos
Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
September 18, 2025
Autores: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
cs.AI
Resumen
La localización espacio-temporal en videos (STVG, por sus siglas en inglés) tiene como objetivo identificar el tubo espacio-temporal de un video, según lo especificado por una consulta de texto de entrada. En este artículo, utilizamos modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) para explorar una solución de cero disparos en STVG. Revelamos dos ideas clave sobre los MLLMs: (1) los MLLMs tienden a asignar dinámicamente tokens especiales, denominados tokens de localización, para anclar la consulta de texto; y (2) los MLLMs a menudo presentan una localización subóptima debido a la incapacidad de integrar completamente las pistas en la consulta de texto (por ejemplo, atributos, acciones) para la inferencia. Basándonos en estas ideas, proponemos un marco de trabajo de cero disparos basado en MLLMs para STVG, que incluye estrategias novedosas de resaltado espacio-temporal descompuesto (DSTH, por sus siglas en inglés) y ensamblaje temporal aumentado (TAS, por sus siglas en inglés) para liberar la capacidad de razonamiento de los MLLMs. La estrategia DSTH primero desacopla la consulta original en subconsultas de atributos y acciones para indagar sobre la existencia del objetivo tanto espacial como temporalmente. Luego, utiliza un módulo de reatención guiada por logits (LRA, por sus siglas en inglés) para aprender variables latentes como indicadores espaciales y temporales, regularizando las predicciones de tokens para cada subconsulta. Estos indicadores resaltan las pistas de atributos y acciones, respectivamente, dirigiendo la atención del modelo a regiones visuales confiables relacionadas con el espacio y el tiempo. Además, dado que la localización espacial por la subconsulta de atributos debe ser temporalmente consistente, introducimos la estrategia TAS para ensamblar las predicciones utilizando los fotogramas originales del video y los fotogramas temporalmente aumentados como entradas, ayudando a mejorar la consistencia temporal. Evaluamos nuestro método en varios MLLMs y demostramos que supera a los métodos de última generación (SOTA, por sus siglas en inglés) en tres puntos de referencia comunes de STVG.
El código estará disponible en https://github.com/zaiquanyang/LLaVA_Next_STVG.
English
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal
tube of a video, as specified by the input text query. In this paper, we
utilize multimodal large language models (MLLMs) to explore a zero-shot
solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to
dynamically assign special tokens, referred to as grounding tokens,
for grounding the text query; and (2) MLLMs often suffer from suboptimal
grounding due to the inability to fully integrate the cues in the text query
(e.g., attributes, actions) for inference. Based on these insights, we
propose a MLLM-based zero-shot framework for STVG, which includes novel
decomposed spatio-temporal highlighting (DSTH) and temporal-augmented
assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH
strategy first decouples the original query into attribute and action
sub-queries for inquiring the existence of the target both spatially and
temporally. It then uses a novel logit-guided re-attention (LRA) module to
learn latent variables as spatial and temporal prompts, by regularizing token
predictions for each sub-query. These prompts highlight attribute and action
cues, respectively, directing the model's attention to reliable spatial and
temporal related visual regions. In addition, as the spatial grounding by the
attribute sub-query should be temporally consistent, we introduce the TAS
strategy to assemble the predictions using the original video frames and the
temporal-augmented frames as inputs to help improve temporal consistency. We
evaluate our method on various MLLMs, and show that it outperforms SOTA methods
on three common STVG benchmarks.
The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.