Zoom-Zero: 시간적 줌인을 통한 강화된 Coarse-to-Fine 비디오 이해
Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in
December 16, 2025
저자: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma
cs.AI
초록
접근적 비디오 질의응답(GVQA)은 비디오 내 관련 시간적 세그먼트를 지역화하고 주어진 질문에 정확한 답변을 생성하는 것을 목표로 하지만, 대규모 비디오-언어 모델(LVLM)은 제한된 시간 인식력을 보입니다. 그룹 상대 정책 최적화(GRPO) 기반 기존 접근법들이 시간적 접근성을 향상시키려 시도하지만, 여전히 답변을 관련 비디오 증거에 충실하게 근거시키는 데 어려움을 겪어 시간적 오지역화와 허구적 응답이 발생합니다. 본 연구에서는 질의 관련 세그먼트를 먼저 지역화한 후 가장 salient한 프레임으로 시간적 확대를 수행하여 세밀한 시각적 검증을 가능하게 하는 coarse-to-fine 프레임워크인 Zoom-Zero를 제시합니다. 우리의 방법은 GVQA 작업에서 GRPO의 한계를 두 가지 핵심 혁신으로 해결합니다: (i) 시간적 접근 예측의 정확도를 검증하고 접근된 프레임에 대한 세밀한 시각적 검증을 용이하게 하는 확대 정확도 보상; (ii) 시간적 지역화 또는 답변 생성에 기여한 토큰에 보상을 귀속시켜 GRPO의 다면적 보상 신호 처리 문제를 완화하는 토큰 선택적 기여도 할당. 제안된 방법은 접근적 비디오 질의응답을 발전시켜 NExT-GQA에서 시간적 접근성을 5.2%, ReXTime에서 4.6% 향상시키며 평균 답변 정확도도 2.4% 개선했습니다. 또한 추론 과정의 coarse-to-fine 확대 단계는 글로벌 콘텍스트를 훼손하지 않으면서 중요한 시각적 세부 사항을 보존함으로써 장형 비디오 이해에 추가적으로 기여하여 장형 비디오 벤치마크에서 평균 6.4%의 성능 향상을 달성했습니다.
English
Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.