Zoom-Zero: Comprensión de Vídeo Reforzada de lo General a lo Específico mediante Acercamiento Temporal
Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in
December 16, 2025
Autores: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma
cs.AI
Resumen
El video question answering fundamentado (GVQA) busca localizar segmentos temporales relevantes en videos y generar respuestas precisas a una pregunta dada; sin embargo, los grandes modelos video-lenguaje (LVLM) exhiben una conciencia temporal limitada. Aunque los enfoques existentes basados en la Optimización de Políticas de Grupo Relativo (GRPO) intentan mejorar la localización temporal, aún luchan por fundamentar fielmente sus respuestas en la evidencia videográfica relevante, lo que conduce a una mala localización temporal y alucinaciones. En este trabajo, presentamos Zoom-Zero, un marco de trabajo de granularidad gruesa a fina que primero localiza segmentos relevantes para la consulta y luego aplica un zoom temporal en los fotogramas más salientes para una verificación visual más detallada. Nuestro método aborda las limitaciones de GRPO para la tarea GVQA con dos innovaciones clave: (i) una recompensa por precisión de zoom que valida la fidelidad de la predicción de localización temporal y facilita la verificación visual de grano fino en los fotogramas fundamentados; (ii) una asignación de crédito selectiva por tokens, que atribuye las recompensas a los tokens responsables de la localización temporal o la generación de respuestas, mitigando el problema de GRPO al manejar señales de recompensa multifacéticas. Nuestro método propuesto avanza el video question answering fundamentado, mejorando la localización temporal en un 5.2% en NExT-GQA y un 4.6% en ReXTime, mientras también mejora la precisión promedio de las respuestas en un 2.4%. Adicionalmente, el zoom de granularidad gruesa a fina durante la inferencia beneficia aún más la comprensión de videos de formato largo al preservar detalles visuales críticos sin comprometer el contexto global, produciendo una mejora promedio del 6.4% en benchmarks de videos largos.
English
Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.