ChatPaper.aiChatPaper

관찰, 추론, 탐색: 에이전트 비디오 추론을 위한 오픈 웹 기반 비디오 심층 연구 벤치마크

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

January 11, 2026
저자: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI

초록

실세계 영상 질의응답 시나리오에서 영상은 흔히 국소적인 시각적 단서만 제공하는 반면, 검증 가능한 답변은 개방형 웹 전반에 분산되어 있습니다. 따라서 모델은 교차 프레임 단서 추출, 반복적 검색, 다중 홉 추론 기반 검증을 동시에 수행해야 합니다. 이러한 격차를 해소하기 위해 우리는 최초의 영상 심층 연구 벤치마크인 VideoDR을 구축했습니다. VideoDR은 영상 기반 개방 도메인 영상 질의응답을 핵심으로 하며, 교차 프레임 시각적 앵커 추출, 상호작용형 웹 검색, 그리고 영상-웹 결합 증거에 대한 다중 홉 추론을 요구합니다. 엄격한 인간 주해와 품질 관리를 통해 우리는 여섯 가지 의미론적 영역에 걸친 고품질 영상 심층 연구 샘플을 확보했습니다. 우리는 Workflow와 Agentic 패러다임 하에서 여러 폐쇄형 및 오픈소스 멀티모달 대규모 언어 모델을 평가했으며, 그 결과 Agentic이 Workflow에 항상 우월한 것은 아님을 확인했습니다: Agentic의 성능 향상은 긴 검색 연쇄에서 초기 영상 앵커를 유지하는 모델의 능력에 의존합니다. 추가 분석에 따르면 목표 이탈과 장기적 일관성이 핵심 병목 현상입니다. 결론적으로 VideoDR은 개방형 웹 환경에서 영상 에이전트를 연구하기 위한 체계적인 벤치마크를 제공하며, 차세대 영상 심층 연구 에이전트의 핵심 과제를 밝혀냅니다.
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.
PDF2097January 31, 2026