PerceptionComp : Un Benchmark Vidéo pour le Raisonnement Complexe Centré sur la Perception

Résumé

Nous présentons PerceptionComp, un benchmark annoté manuellement pour le raisonnement vidéo complexe, à long horizon et centré sur la perception. PerceptionComp est conçu de telle sorte qu'aucun instant isolé ne suffise : répondre à chaque question nécessite de multiples éléments de preuve visuelle temporellement séparés et des contraintes compositionnelles relevant d'une logique conjonctive et séquentielle. Cela implique des sous-tâches perceptives telles que la reconnaissance d'objets, d'attributs, de relations, de localisations, d'actions et d'événements, et requiert des compétences incluant la reconnaissance sémantique, la correspondance visuelle, le raisonnement temporel et le raisonnement spatial. Le benchmark contient 1 114 questions très complexes portant sur 279 vidéos provenant de domaines variés tels que des visites urbaines, des visites de villas intérieures, des jeux vidéo et des sports de plein air extrêmes, avec une annotation manuelle à 100 %. Des études humaines montrent que PerceptionComp nécessite une réflexion substantielle au moment du test et des étapes perceptives répétées : les participants prennent beaucoup plus de temps que sur les benchmarks antérieurs, et la précision chute à un niveau proche du hasard (18,97 %) lorsque le re-visionnage est interdit. Les MLLM (Modèles de Langage Multimodaux) de pointe obtiennent également des résultats substantiellement moins bons sur PerceptionComp que sur les benchmarks existants : le meilleur modèle de notre évaluation, Gemini-3-Flash, n'atteint que 45,96 % de précision dans le cadre à cinq choix, tandis que les modèles open source restent en dessous de 40 %. Ces résultats suggèrent que le raisonnement vidéo à long horizon centré sur la perception reste un goulot d'étranglement majeur, et nous espérons que PerceptionComp contribuera à faire progresser le raisonnement perceptif.

English

We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.

PerceptionComp : Un Benchmark Vidéo pour le Raisonnement Complexe Centré sur la Perception

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Résumé

Support