PerceptionComp: Een Videobenchmark voor Complexe Perception-Gericht Redeneren
PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning
March 27, 2026
Auteurs: Shaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna
cs.AI
Samenvatting
Wij introduceren PerceptionComp, een handmatig geannoteerde benchmark voor complexe, lang-horizon, perceptie-gerichte videoredenering. PerceptionComp is zo ontworpen dat geen enkel moment op zichzelf voldoende is: het beantwoorden van elke vraag vereist meerdere temporeel gescheiden stukken visueel bewijs en compositionele beperkingen onder conjunctieve en sequentiële logica, die zich uitstrekken over perceptuele subtaken zoals objecten, attributen, relaties, locaties, handelingen en gebeurtenissen, en die vaardigheden vereisen zoals semantische herkenning, visuele correspondentie, temporele redenering en ruimtelijke redenering. De benchmark bevat 1.114 zeer complexe vragen over 279 video's uit uiteenlopende domeinen, waaronder stadswandelingen, villa-rondleidingen binnenshuis, videogames en extreme outdoorsporten, met 100% handmatige annotatie. Menselijke studies tonen aan dat PerceptionComp aanzienlijk nadenken tijdens de test en herhaalde perceptiestappen vereist: deelnemers doen er veel langer over dan bij eerdere benchmarks, en de nauwkeurigheid daalt tot bijna toeval (18,97%) wanneer het opnieuw bekijken van de video niet is toegestaan. State-of-the-art MLLM's presteren ook aanzienlijk slechter op PerceptionComp dan op bestaande benchmarks: het beste model in onze evaluatie, Gemini-3-Flash, haalt slechts 45,96% nauwkeurigheid in de setting met vijf keuzes, terwijl open-source modellen onder de 40% blijven. Deze resultaten suggereren dat perceptie-gerichte lang-horizon videoredenering een groot knelpunt blijft, en wij hopen dat PerceptionComp de vooruitgang in perceptuele redenering zal helpen bevorderen.
English
We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.