Observar, Racionalizar e Investigar: Um Benchmark de Pesquisa Profunda em Vídeos na Web Aberta para Raciocínio Video-Agente

Resumo

Em cenários reais de resposta a perguntas baseadas em vídeo, os vídeos frequentemente fornecem apenas pistas visuais localizadas, enquanto as respostas verificáveis estão distribuídas pela web aberta; os modelos precisam, portanto, realizar conjuntamente extração de pistas entre frames, recuperação iterativa e verificação baseada em raciocínio multietapas. Para preencher essa lacuna, construímos o primeiro benchmark de pesquisa aprofundada em vídeo, o VideoDR. O VideoDR concentra-se na resposta a perguntas de domínio aberto condicionadas a vídeo, exigindo extração de âncoras visuais entre frames, recuperação web interativa e raciocínio multietapas sobre evidências conjuntas vídeo-web; por meio de rigorosa anotação humana e controle de qualidade, obtivemos amostras de alta qualidade de pesquisa aprofundada em vídeo abrangendo seis domínios semânticos. Avaliamos múltiplos modelos de linguagem grandes multimodais de código fechado e aberto sob os paradigmas de Fluxo de Trabalho e Agência, e os resultados mostram que a Abordagem Agência não é consistentemente superior ao Fluxo de Trabalho: seus ganhos dependem da capacidade do modelo em manter as âncoras visuais iniciais ao longo de longas cadeias de recuperação. Análises adicionais indicam que o desvio de objetivo e a consistência de longo horizonte são os gargalos centrais. Em suma, o VideoDR fornece um benchmark sistemático para estudar agentes de vídeo em configurações de web aberta e revela os desafios fundamentais para a próxima geração de agentes de pesquisa aprofundada em vídeo.

English

In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.

Observar, Racionalizar e Investigar: Um Benchmark de Pesquisa Profunda em Vídeos na Web Aberta para Raciocínio Video-Agente

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Resumo

Support