ChatPaper.aiChatPaper

Zoom-Zero : Compréhension vidéo renforcée du grossier au fin via un zoom temporel

Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

December 16, 2025
papers.authors: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma
cs.AI

papers.abstract

La réponse visuelle ancrée temporellement (GVQA) vise à localiser les segments temporels pertinents dans les vidéos et à générer des réponses précises à une question donnée ; cependant, les grands modèles vidéo-langage (LVLM) présentent une conscience temporelle limitée. Bien que les approches existantes basées sur l'optimisation de politique relative par groupe (GRPO) tentent d'améliorer l'ancrage temporel, elles peinent encore à ancrer fidèlement leurs réponses dans les preuves vidéo pertinentes, conduisant à des erreurs de localisation temporelle et des hallucinations. Dans ce travail, nous présentons Zoom-Zero, un framework grossier-à-fin qui localise d'abord les segments pertinents pour la requête, puis effectue un zoom temporel sur les images les plus saillantes pour une vérification visuelle plus fine. Notre méthode adresse les limites de la GRPO pour la tâche GVQA grâce à deux innovations clés : (i) une récompense de précision de zoom qui valide la fidélité de la prédiction d'ancrage temporel et facilite la vérification visuelle fine sur les images ancrées ; (ii) l'attribution sélective de crédit par token, qui attribue les récompenses aux tokens responsables de la localisation temporelle ou de la génération de réponses, atténuant le problème de la GRPO dans le traitement des signaux de récompense multi-facettes. Notre méthode proposée fait progresser la réponse visuelle ancrée temporellement, améliorant l'ancrage temporel de 5,2 % sur NExT-GQA et de 4,6 % sur ReXTime, tout en augmentant la précision moyenne des réponses de 2,4 %. De plus, le zoom grossier-à-fin lors de l'inférence bénéficie davantage à la compréhension de vidéos longues en préservant les détails visuels critiques sans compromettre le contexte global, produisant une amélioration moyenne de 6,4 % sur les benchmarks de vidéos longues.
English
Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.
PDF51December 18, 2025