ChatPaper.aiChatPaper

Zoom-Zero: Verstärktes grob- bis feingranulares Videoverständnis durch zeitliches Hineinzoomen

Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

December 16, 2025
papers.authors: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma
cs.AI

papers.abstract

Grounded Video Question Answering (GVQA) zielt darauf ab, relevante temporale Segmente in Videos zu lokalisieren und genaue Antworten auf eine gegebene Frage zu generieren; große Video-Sprach-Modelle (LVLMs) zeigen jedoch ein begrenztes temporales Bewusstsein. Obwohl bestehende Ansätze auf Basis von Group Relative Policy Optimization (GRPO) versuchen, die temporale Verankerung zu verbessern, haben sie immer noch Schwierigkeiten, ihre Antworten treu auf die relevanten Videobelege zu stützen, was zu temporaler Fehllokalisierung und Halluzinationen führt. In dieser Arbeit stellen wir Zoom-Zero vor, ein Coarse-to-Fine-Framework, das zunächst abfragerelevante Segmente lokalisiert und dann temporal in die salientesten Frames hineinzoomt, um eine feinkörnigere visuelle Verifikation durchzuführen. Unsere Methode adressiert die Grenzen von GRPO für die GVQA-Aufgabe mit zwei Schlüsselinnovationen: (i) einem Zoom-in-Genauigkeits-Reward, der die Treue der temporalen Verankerungsvorhersage validiert und eine feinkörnige visuelle Verifikation auf den verankerten Frames ermöglicht; (ii) einer token-selektiven Credit-Zuweisung, die Rewards den Token zuschreibt, die für die temporale Lokalisierung oder Antwortgenerierung verantwortlich sind, und so das Problem von GRPO im Umgang mit mehrdimensionalen Reward-Signalen mildert. Unsere vorgeschlagene Methode verbessert Grounded Video Question Answering, steigert die temporale Verankerung um 5,2 % auf NExT-GQA und 4,6 % auf ReXTime und erhöht gleichzeitig die durchschnittliche Antwortgenauigkeit um 2,4 %. Zusätzlich profitiert das Coarse-to-Fine-Zoom-in während des Inferenzvorgangs weiterhin vom Langzeit-Videoverständnis, indem kritische visuelle Details bewahrt werden, ohne den globalen Kontext zu beeinträchtigen, was zu einer durchschnittlichen Verbesserung von 6,4 % auf Langvideo-Benchmarks führt.
English
Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.
PDF51December 18, 2025