ChatPaper.aiChatPaper

Liberando o Potencial dos LLMs Multimodais para a Ancoragem Espaço-Temporal de Vídeo em Zero-Shot

Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

September 18, 2025
Autores: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
cs.AI

Resumo

A localização espaço-temporal em vídeos (STVG) tem como objetivo identificar o tubo espaço-temporal de um vídeo, conforme especificado pela consulta textual de entrada. Neste artigo, utilizamos modelos de linguagem multimodal de grande escala (MLLMs) para explorar uma solução zero-shot em STVG. Revelamos dois insights-chave sobre os MLLMs: (1) os MLLMs tendem a atribuir dinamicamente tokens especiais, denominados tokens de localização, para ancorar a consulta textual; e (2) os MLLMs frequentemente apresentam localização subótima devido à incapacidade de integrar plenamente as pistas da consulta textual (por exemplo, atributos, ações) para inferência. Com base nesses insights, propomos um framework zero-shot baseado em MLLMs para STVG, que inclui estratégias inovadoras de destaque espaço-temporal decomposto (DSTH) e montagem temporal-aumentada (TAS) para liberar a capacidade de raciocínio dos MLLMs. A estratégia DSTH primeiro desacopla a consulta original em sub-consultas de atributo e ação para investigar a existência do alvo tanto espacial quanto temporalmente. Em seguida, utiliza um novo módulo de reatenção guiada por logit (LRA) para aprender variáveis latentes como prompts espaciais e temporais, regularizando as previsões de tokens para cada sub-consulta. Esses prompts destacam as pistas de atributo e ação, respectivamente, direcionando a atenção do modelo para regiões visuais confiáveis relacionadas ao espaço e ao tempo. Além disso, como a localização espacial pela sub-consulta de atributo deve ser temporalmente consistente, introduzimos a estratégia TAS para montar as previsões usando os frames originais do vídeo e os frames temporal-aumentados como entradas para ajudar a melhorar a consistência temporal. Avaliamos nosso método em vários MLLMs e mostramos que ele supera os métodos SOTA em três benchmarks comuns de STVG. O código estará disponível em https://github.com/zaiquanyang/LLaVA_Next_STVG.
English
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal tube of a video, as specified by the input text query. In this paper, we utilize multimodal large language models (MLLMs) to explore a zero-shot solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to dynamically assign special tokens, referred to as grounding tokens, for grounding the text query; and (2) MLLMs often suffer from suboptimal grounding due to the inability to fully integrate the cues in the text query (e.g., attributes, actions) for inference. Based on these insights, we propose a MLLM-based zero-shot framework for STVG, which includes novel decomposed spatio-temporal highlighting (DSTH) and temporal-augmented assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH strategy first decouples the original query into attribute and action sub-queries for inquiring the existence of the target both spatially and temporally. It then uses a novel logit-guided re-attention (LRA) module to learn latent variables as spatial and temporal prompts, by regularizing token predictions for each sub-query. These prompts highlight attribute and action cues, respectively, directing the model's attention to reliable spatial and temporal related visual regions. In addition, as the spatial grounding by the attribute sub-query should be temporally consistent, we introduce the TAS strategy to assemble the predictions using the original video frames and the temporal-augmented frames as inputs to help improve temporal consistency. We evaluate our method on various MLLMs, and show that it outperforms SOTA methods on three common STVG benchmarks. The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.
PDF62September 19, 2025