Video-BrowseComp: Avaliação da Pesquisa de Vídeo com Agentes na Web Aberta

Resumo

A evolução de agentes autónomos está a redefinir a busca de informação, transitando da recuperação passiva para uma investigação web proativa e de âmbito aberto. Contudo, embora os agentes textuais e multimodais estáticos tenham registado progressos rápidos, persiste uma lacuna significativa na modalidade de processamento da forma mais dinâmica da web: o vídeo. Os benchmarks de vídeo existentes focam-se predominantemente na perceção passiva, fornecendo clips curados aos modelos sem exigir recuperação externa. Eles não avaliam a investigação vídeo agentiva, que exige interrogar ativamente as linhas temporais dos vídeos, cruzar referências de evidências dispersas e verificar afirmações face à web aberta. Para colmatar esta lacuna, apresentamos o Video-BrowseComp, um benchmark desafiador composto por 210 questões adaptadas para o raciocínio vídeo agentivo na web aberta. Ao contrário de benchmarks anteriores, o Video-BrowseComp impõe uma dependência obrigatória de evidência visual temporal, garantindo que as respostas não podem ser derivadas apenas através de pesquisa de texto, mas exigem a navegação pelas linhas temporais de vídeo para verificar afirmações externas. A nossa avaliação dos modelos mais avançados revela um estrangulamento crítico: mesmo modelos avançados aumentados com pesquisa, como o GPT-5.1 (c/ Pesquisa), atingem apenas 15,24% de precisão. A nossa análise revela que estes modelos dependem largamente de *proxies* textuais, destacando-se em domínios ricos em metadados (ex.: programas de TV com resumos de enredo), mas colapsando em ambientes dinâmicos e escassos em metadados (ex.: desporto, *gameplay*) onde a fundamentação visual é essencial. Como primeiro benchmark de investigação de vídeo em web aberta, o Video-BrowseComp avança o campo para lá da perceção passiva, rumo a um raciocínio vídeo proativo.

English

The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.

Video-BrowseComp: Avaliação da Pesquisa de Vídeo com Agentes na Web Aberta

Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

Resumo

Support