PerceptionComp: Eine Videobenchmark für komplexe wahrnehmungszentrierte Verarbeitung

Zusammenfassung

Wir stellen PerceptionComp vor, einen manuell annotierten Benchmark für komplexe, langfristige und wahrnehmungszentrierte Videoanalyse. PerceptionComp ist so konzipiert, dass kein einzelner Moment ausreicht: Die Beantwortung jeder Frage erfordert mehrere zeitlich getrennte visuelle Beweisstücke und zusammengesetzte Constraints basierend auf konjunktiver und sequenzieller Logik. Dies umfasst perzeptive Teilaufgaben wie Objekte, Attribute, Relationen, Orte, Aktionen und Ereignisse sowie Fähigkeiten wie semantische Erkennung, visuelle Korrespondenz, zeitliches und räumliches Schließen. Der Benchmark umfasst 1.114 hochkomplexe Fragen zu 279 Videos aus verschiedenen Domänen, darunter Stadtrundgänge, Villenbesichtigungen, Videospiele und Extremsportarten im Freien, alle zu 100% manuell annotiert. Humanstudien zeigen, dass PerceptionComp substantielles Denken zur Testzeit und wiederholte Wahrnehmungsschritte erfordert: Teilnehmer benötigen deutlich mehr Zeit als bei früheren Benchmarks, und die Genauigkeit sinkt auf nahezu Zufallsniveau (18,97 %), wenn das erneute Ansehen der Videos untersagt wird. State-of-the-Art MLLMs (Multimodale Large Language Models) schneiden auf PerceptionComp ebenfalls deutlich schlechter ab als auf bestehenden Benchmarks: Das beste Modell in unserer Evaluation, Gemini-3-Flash, erreicht im Fünf-Auswahl-Setting nur 45,96 % Genauigkeit, während Open-Source-Modelle unter 40 % bleiben. Diese Ergebnisse deuten darauf hin, dass die wahrnehmungszentrierte, langfristige Videoanalyse nach wie vor eine große Herausforderung darstellt. Wir hoffen, dass PerceptionComp dazu beitragen wird, Fortschritte im Bereich des perzeptuellen Schließens voranzutreiben.

English

We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.

PerceptionComp: Eine Videobenchmark für komplexe wahrnehmungszentrierte Verarbeitung

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Zusammenfassung

Support