Zoom-Zero:時間的ズームインによる強化学習ベースの粗から細への映像理解
Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in
December 16, 2025
著者: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma
cs.AI
要旨
グラウンディッド動画質問応答(GVQA)は、動画内の関連する時間セグメントを特定し、与えられた質問に対して正確な回答を生成することを目的とする。しかし、大規模動画言語モデル(LVLM)の時間的認識能力は限定的である。既存のGroup Relative Policy Optimization(GRPO)に基づく手法は時間的グラウンディングの改善を試みているが、依然として回答を関連する動画証拠に忠実に結びつけることに苦戦しており、時間的誤定位や幻覚を引き起こしている。本研究では、Zoom-Zeroを提案する。これは、まず質問に関連するセグメントを特定し、その後時間的に最も重要なフレームにズームインして細粒度の視覚的検証を行う粗密フレームワークである。本手法は、GVQAタスクにおけるGRPOの限界を以下の二つの革新により解決する:(i)時間的グラウンディング予測の忠実性を検証し、グラウンディングされたフレームでの細粒度視覚検証を促進するズームイン精度報酬;(ii)時間的定位または回答生成に関与するトークンに報酬を帰属させるトークン選択的信用割り当て。これにより、GRPOが多面的な報酬信号を扱う際の問題を軽減する。提案手法はグラウンディッド動画質問応答を進化させ、NExT-GQAで5.2%、ReXTimeで4.6%の時間的グラウンディング精度向上を達成し、平均回答精度も2.4%向上させた。さらに、推論時の粗密ズームインは、大域的な文脈を損なうことなく重要な視覚的詳細を保持することで長尺動画理解にも寄与し、長尺動画ベンチマークで平均6.4%の改善をもたらした。
English
Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.