Раскрытие потенциала мультимодальных больших языковых моделей для задач пространственно-временного закрепления видео в условиях zero-shot
Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
September 18, 2025
Авторы: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
cs.AI
Аннотация
Пространственно-временная локализация в видео (STVG) направлена на определение пространственно-временной трубки в видео, заданной текстовым запросом. В данной работе мы используем мультимодальные большие языковые модели (MLLMs) для исследования решения задачи STVG в режиме zero-shot. Мы выявили два ключевых аспекта, связанных с MLLMs: (1) MLLMs склонны динамически назначать специальные токены, называемые токенами локализации, для привязки текстового запроса; и (2) MLLMs часто демонстрируют неоптимальную локализацию из-за неспособности полностью интегрировать подсказки из текстового запроса (например, атрибуты, действия) для вывода. На основе этих наблюдений мы предлагаем zero-shot фреймворк для STVG на основе MLLMs, который включает новые стратегии декомпозированного пространственно-временного выделения (DSTH) и временного усиления сборки (TAS) для раскрытия способности MLLMs к рассуждению. Стратегия DSTH сначала разделяет исходный запрос на подзапросы атрибутов и действий для проверки наличия цели как в пространственном, так и во временном измерениях. Затем она использует новый модуль повторного внимания с управлением логитами (LRA) для изучения латентных переменных в качестве пространственных и временных подсказок, регулируя предсказания токенов для каждого подзапроса. Эти подсказки выделяют атрибуты и действия соответственно, направляя внимание модели на надежные визуальные области, связанные с пространством и временем. Кроме того, поскольку пространственная локализация по подзапросу атрибутов должна быть временно согласованной, мы вводим стратегию TAS для сборки предсказаний с использованием исходных кадров видео и временно усиленных кадров в качестве входных данных для улучшения временной согласованности. Мы оцениваем наш метод на различных MLLMs и показываем, что он превосходит современные методы на трех стандартных бенчмарках STVG.
Код будет доступен по адресу https://github.com/zaiquanyang/LLaVA_Next_STVG.
English
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal
tube of a video, as specified by the input text query. In this paper, we
utilize multimodal large language models (MLLMs) to explore a zero-shot
solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to
dynamically assign special tokens, referred to as grounding tokens,
for grounding the text query; and (2) MLLMs often suffer from suboptimal
grounding due to the inability to fully integrate the cues in the text query
(e.g., attributes, actions) for inference. Based on these insights, we
propose a MLLM-based zero-shot framework for STVG, which includes novel
decomposed spatio-temporal highlighting (DSTH) and temporal-augmented
assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH
strategy first decouples the original query into attribute and action
sub-queries for inquiring the existence of the target both spatially and
temporally. It then uses a novel logit-guided re-attention (LRA) module to
learn latent variables as spatial and temporal prompts, by regularizing token
predictions for each sub-query. These prompts highlight attribute and action
cues, respectively, directing the model's attention to reliable spatial and
temporal related visual regions. In addition, as the spatial grounding by the
attribute sub-query should be temporally consistent, we introduce the TAS
strategy to assemble the predictions using the original video frames and the
temporal-augmented frames as inputs to help improve temporal consistency. We
evaluate our method on various MLLMs, and show that it outperforms SOTA methods
on three common STVG benchmarks.
The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.