Zoom-Zero: Усиленное понимание видео от общего к частному через временное увеличение
Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in
December 16, 2025
Авторы: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma
cs.AI
Аннотация
Задача обоснованного видеоответа на вопросы (GVQA) направлена на локализацию релевантных временных сегментов в видео и генерацию точных ответов на заданный вопрос; однако крупные видео-языковые модели (LVLM) демонстрируют ограниченную временную осведомленность. Хотя существующие подходы на основе оптимизации групповой относительной политики (GRPO) пытаются улучшить временную привязку, они по-прежнему неспособны достоверно обосновывать свои ответы соответствующими видео-доказательствами, что приводит к временной ошибке локализации и галлюцинациям. В данной работе мы представляем Zoom-Zero, двухэтапную (от грубой к точной) структуру, которая сначала локализует релевантные запросу сегменты, а затем временно приближается к наиболее значимым кадрам для более детальной визуальной верификации. Наш метод преодолевает ограничения GRPO для задачи GVQA за счет двух ключевых нововведений: (i) вознаграждения за точность приближения, которое проверяет достоверность прогноза временной привязки и способствует детальной визуальной проверке на обоснованных кадрах; (ii) токен-селективного распределения заслуг, которое приписывает вознаграждение токенам, ответственным за временную локализацию или генерацию ответа, смягчая проблему GRPO с обработкой многогранных сигналов вознаграждения. Предложенный нами метод продвигает вперед задачу обоснованного видеоответа на вопросы, улучшая временную привязку на 5.2% на NExT-GQA и на 4.6% на ReXTime, одновременно повышая среднюю точность ответов на 2.4%. Кроме того, двухэтапное приближение на этапе вывода дополнительно способствует пониманию длинных видео, сохраняя критические визуальные детали без ущерба для глобального контекста, что дает среднее улучшение на 6.4% на бенчмарках для длинных видео.
English
Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.