PerceptionComp: Um Benchmark de Vídeo para Raciocínio Complexo Centrado na Percepção

Resumo

Apresentamos o PerceptionComp, um benchmark anotado manualmente para o raciocínio em vídeo complexo, de longo horizonte e centrado na percepção. O PerceptionComp foi concebido de modo que nenhum momento único seja suficiente: responder a cada pergunta requer múltiplas evidências visuais temporalmente separadas e restrições composicionais sob lógica conjuntiva e sequencial, abrangendo subtarefas perceptivas como objetos, atributos, relações, localizações, ações e eventos, e exigindo competências que incluem reconhecimento semântico, correspondência visual, raciocínio temporal e raciocínio espacial. O benchmark contém 1.114 perguntas altamente complexas sobre 279 vídeos de diversos domínios, incluindo passeios urbanos, visitas a villas interiores, videojogos e desportos radicais ao ar livre, com 100% de anotação manual. Estudos com humanos mostram que o PerceptionComp exige um pensamento substancial durante o teste e passos perceptivos repetidos: os participantes demoram muito mais tempo do que em benchmarks anteriores, e a precisão cai para quase aleatória (18,97%) quando a revisão dos vídeos não é permitida. Os MLLMs (Modelos de Linguagem Multimodal) de última geração também têm um desempenho substancialmente pior no PerceptionComp do que em benchmarks existentes: o melhor modelo na nossa avaliação, o Gemini-3-Flash, atinge apenas 45,96% de precisão na configuração de cinco escolhas, enquanto os modelos de código aberto permanecem abaixo dos 40%. Estes resultados sugerem que o raciocínio em vídeo de longo horizonte centrado na percepção continua a ser um grande obstáculo, e esperamos que o PerceptionComp ajude a impulsionar o progresso no raciocínio perceptual.

English

We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.

PerceptionComp: Um Benchmark de Vídeo para Raciocínio Complexo Centrado na Percepção

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Resumo

Support