PerceptionComp: Un Benchmark Video per il Ragionamento Complesso di Tipo Percettivo

Abstract

Introduciamo PerceptionComp, un benchmark annotato manualmente per il ragionamento video complesso, a lungo termine e incentrato sulla percezione. PerceptionComp è progettato in modo che nessun singolo momento sia sufficiente: rispondere a ogni domanda richiede molteplici elementi di evidenza visiva temporalmente separati e vincoli compositivi sotto logica congiuntiva e sequenziale, abbracciando sottotask percettivi come oggetti, attributi, relazioni, luoghi, azioni ed eventi, e richiedendo competenze che includono riconoscimento semantico, corrispondenza visiva, ragionamento temporale e ragionamento spaziale. Il benchmark contiene 1.114 domande altamente complesse su 279 video provenienti da domini diversi, tra cui tour a piedi in città, tour di ville interne, videogiochi e sport estremi all'aperto, con annotazione manuale al 100%. Studi sull'uomo mostrano che PerceptionComp richiede un pensiero sostanziale al momento del test e passi percettivi ripetuti: i partecipanti impiegano molto più tempo rispetto ai benchmark precedenti e l'accuratezza scende quasi al caso (18,97%) quando il rewatch non è consentito. I modelli MLLM allo stato dell'arte performano anche sostanzialmente peggio su PerceptionComp rispetto ai benchmark esistenti: il miglior modello nella nostra valutazione, Gemini-3-Flash, raggiunge solo il 45,96% di accuratezza nell'impostazione a cinque scelte, mentre i modelli open-source rimangono al di sotto del 40%. Questi risultati suggeriscono che il ragionamento video a lungo termine incentrato sulla percezione rimane un collo di bottiglia importante, e speriamo che PerceptionComp aiuterà a promuovere il progresso nel ragionamento percettivo.

English

We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.

PerceptionComp: Un Benchmark Video per il Ragionamento Complesso di Tipo Percettivo

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Abstract

Support