Zoom-Zero: Compreensão de Vídeo de Granulação Grossa a Fina Reforçada via Zoom Temporal

Resumo

A Resposta a Perguntas com Base Temporal em Vídeos (GVQA) visa localizar segmentos temporais relevantes em vídeos e gerar respostas precisas para uma determinada pergunta; no entanto, os grandes modelos de vídeo e linguagem (LVLMs) exibem consciência temporal limitada. Embora as abordagens existentes baseadas na Política de Otimização Relativa de Grupo (GRPO) tentem melhorar a ancoragem temporal, elas ainda lutam para fundamentar fielmente suas respostas nas evidências videográficas relevantes, levando a má localização temporal e alucinações. Neste trabalho, apresentamos o Zoom-Zero, uma estrutura de granularidade crescente que primeiro localiza segmentos relevantes para a consulta e depois aplica um zoom temporal nos quadros mais salientes para uma verificação visual de granularidade mais fina. Nosso método aborda as limitações do GRPO para a tarefa GVQA com duas inovações principais: (i) uma recompensa de precisão do zoom que valida a fidelidade da previsão de ancoragem temporal e facilita a verificação visual de granularidade fina nos quadros ancorados; (ii) a atribuição seletiva de crédito por token, que atribui recompensas aos tokens responsáveis pela localização temporal ou geração de respostas, mitigando o problema do GRPO no tratamento de sinais de recompensa multifacetados. Nosso método proposto avança a resposta a perguntas com base temporal em vídeos, melhorando a ancoragem temporal em 5,2% no NExT-GQA e 4,6% no ReXTime, enquanto também aumenta a precisão média das respostas em 2,4%. Adicionalmente, o zoom de granularidade crescente durante a inferência beneficia ainda mais a compreensão de vídeos de longa duração, preservando detalhes visuais críticos sem comprometer o contexto global, resultando numa melhoria média de 6,4% em benchmarks de vídeos longos.

English

Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.

Zoom-Zero: Compreensão de Vídeo de Granulação Grossa a Fina Reforçada via Zoom Temporal

Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

Resumo

Support