ChatPaper.aiChatPaper

Observar, Racionalizar e Investigar: Um Benchmark de Pesquisa Profunda em Vídeos na Web Aberta para Raciocínio Video-Agente

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

January 11, 2026
Autores: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI

Resumo

Em cenários reais de resposta a perguntas baseadas em vídeo, os vídeos frequentemente fornecem apenas pistas visuais localizadas, enquanto as respostas verificáveis estão distribuídas pela web aberta; os modelos precisam, portanto, realizar conjuntamente extração de pistas entre frames, recuperação iterativa e verificação baseada em raciocínio multietapas. Para preencher essa lacuna, construímos o primeiro benchmark de pesquisa aprofundada em vídeo, o VideoDR. O VideoDR concentra-se na resposta a perguntas de domínio aberto condicionadas a vídeo, exigindo extração de âncoras visuais entre frames, recuperação web interativa e raciocínio multietapas sobre evidências conjuntas vídeo-web; por meio de rigorosa anotação humana e controle de qualidade, obtivemos amostras de alta qualidade de pesquisa aprofundada em vídeo abrangendo seis domínios semânticos. Avaliamos múltiplos modelos de linguagem grandes multimodais de código fechado e aberto sob os paradigmas de Fluxo de Trabalho e Agência, e os resultados mostram que a Abordagem Agência não é consistentemente superior ao Fluxo de Trabalho: seus ganhos dependem da capacidade do modelo em manter as âncoras visuais iniciais ao longo de longas cadeias de recuperação. Análises adicionais indicam que o desvio de objetivo e a consistência de longo horizonte são os gargalos centrais. Em suma, o VideoDR fornece um benchmark sistemático para estudar agentes de vídeo em configurações de web aberta e revela os desafios fundamentais para a próxima geração de agentes de pesquisa aprofundada em vídeo.
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.
PDF2157March 16, 2026