Zoom-Zero: Versterkt grof-naar-fijn video-interpretatie via temporele inzooming
Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in
December 16, 2025
Auteurs: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma
cs.AI
Samenvatting
Gegrond videovraag-antwoord (GVQA) heeft als doel relevante temporele segmenten in video's te lokaliseren en nauwkeurige antwoorden op een gegeven vraag te genereren; grote video-taalmodellen (LVLMs) vertonen echter een beperkt temporeel bewustzijn. Hoewel bestaande benaderingen gebaseerd op Group Relative Policy Optimization (GRPO) proberen de temporele verankering te verbeteren, worstelen ze nog steeds om hun antwoorden trouw te verankeren in het relevante videobewijs, wat leidt tot temporele mislokalisatie en hallucinaties. In dit werk presenteren we Zoom-Zero, een coarse-to-fine raamwerk dat eerst vraag-relevante segmenten lokaliseert en vervolgens temporeel inzoomt op de meest saliënte frames voor fijnmazigere visuele verificatie. Onze methode adresseert de beperkingen van GRPO voor de GVQA-taak met twee belangrijke innovaties: (i) een zoom-in nauwkeurigheidsbeloning die de trouw van de temporele verankeringsvoorspelling valideert en fijnmazige visuele verificatie op verankerde frames vergemakkelijkt; (ii) token-selectieve toerekening van credits, die beloningen toeschrijft aan de tokens die verantwoordelijk zijn voor temporele lokalisatie of antwoordgeneratie, waardoor het probleem van GRPO bij het verwerken van veelzijdige beloningssignalen wordt verminderd. Onze voorgestelde methode bevordert gegrond videovraag-antwoord, verbetert de temporele verankering met 5,2% op NExT-GQA en 4,6% op ReXTime, en verhoogt tegelijkertijd de gemiddelde antwoorden nauwkeurigheid met 2,4%. Bovendien levert de coarse-to-fine zoom-in tijdens inferentie extra voordelen op voor langere video's door kritieke visuele details te behouden zonder het globale context aan te tasten, wat resulteert in een gemiddelde verbetering van 6,4% op benchmarks voor lange video's.
English
Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.