Наблюдение, рассуждение и поиск: эталонный тест для глубокого анализа видео из открытой сети для агентного видеомышления
Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
January 11, 2026
Авторы: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI
Аннотация
В реальных сценариях видео-вопросно-ответных систем видеоролики часто предоставляют лишь локальные визуальные подсказки, тогда как проверяемые ответы распределены по открытой сети; следовательно, модели должны совместно выполнять извлечение межкадровых ключей, итеративный поиск и верификацию на основе многошаговых рассуждений. Для преодоления этого разрыва мы создали первый бенчмарк для глубокого анализа видео — VideoDR. VideoDR фокусируется на видео-обусловленных открытых видео-вопросно-ответных задачах, требующих извлечения визуальных якорей между кадрами, интерактивного веб-поиска и многошаговых рассуждений над совместными видео-веб доказательствами; благодаря тщательной человеческой разметке и контролю качества мы получили высококачественные образцы для глубокого анализа видео, охватывающие шесть семантических доменов. Мы оценили несколько проприетарных и открытых мультимодальных больших языковых моделей в рамках Workflow и Agentic парадигм, и результаты показывают, что Agentic не является последовательно превосходящей Workflow: её преимущества зависят от способности модели сохранять первоначальные видео-якоря в длинных цепочках поиска. Дальнейший анализ указывает, что дрейф целей и долгосрочная согласованность являются ключевыми узкими местами. В целом, VideoDR предоставляет систематический бенчмарк для изучения видео-агентов в условиях открытой сети и выявляет основные проблемы для агентов следующего поколения, выполняющих глубокий анализ видео.
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.