ChatPaper.aiChatPaper

Zoom-Zero: Comprensione Video da Grossolana a Fine Rinforzata tramite Zoom Temporale

Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

December 16, 2025
Autori: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma
cs.AI

Abstract

Il video question answering fondato (GVQA) mira a localizzare segmenti temporali rilevanti nei video e generare risposte accurate a una data domanda; tuttavia, i grandi modelli video-linguistici (LVLM) mostrano una limitata consapevolezza temporale. Sebbene gli approcci esistenti basati sull'ottimizzazione delle politiche relative di gruppo (GRPO) tentino di migliorare la localizzazione temporale, essi faticano ancora a fondare fedelmente le proprie risposte nelle evidenze video rilevanti, portando a errori di localizzazione temporale e allucinazioni. In questo lavoro, presentiamo Zoom-Zero, un framework da grossolano a fine che prima localizza i segmenti pertinenti alla query e poi effettua uno zoom temporale sui fotogrammi più salienti per una verifica visiva più granulare. Il nostro metodo affronta i limiti del GRPO per il compito GVQA con due innovazioni chiave: (i) una ricompensa per l'accuratezza dello zoom che convalida la fedeltà della previsione di localizzazione temporale e facilita la verifica visiva fine sui fotogrammi fondati; (ii) l'assegnazione selettiva del credito ai token, che attribuisce le ricompense ai token responsabili della localizzazione temporale o della generazione della risposta, mitigando il problema del GRPO nella gestione di segnali di ricompensa multifaccettati. Il nostro metodo proposto avanza il video question answering fondato, migliorando la localizzazione temporale del 5,2% su NExT-GQA e del 4,6% su ReXTime, mentre incrementa anche l'accuratezza media delle risposte del 2,4%. Inoltre, lo zoom da grossolano a fine durante l'inferenza apporta ulteriori vantaggi alla comprensione di video lunghi preservando dettagli visivi critici senza compromettere il contesto globale, producendo un miglioramento medio del 6,4% sui benchmark per video lunghi.
English
Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.
PDF51December 18, 2025