PerceptionComp: Un Punto de Referencia en Video para el Razonamiento Complejo Centrado en la Percepción

Resumen

Presentamos PerceptionComp, un punto de referencia anotado manualmente para el razonamiento sobre videos complejos, de horizonte largo y centrado en la percepción. PerceptionComp está diseñado de modo que ningún momento individual sea suficiente: responder cada pregunta requiere múltiples evidencias visuales separadas temporalmente y restricciones composicionales bajo lógica conjuntiva y secuencial, abarcando subtareas perceptuales como objetos, atributos, relaciones, ubicaciones, acciones y eventos, y requiriendo habilidades que incluyen reconocimiento semántico, correspondencia visual, razonamiento temporal y razonamiento espacial. El punto de referencia contiene 1.114 preguntas altamente complejas sobre 279 videos de diversos dominios, incluyendo recorridos urbanos, tours de villas interiores, videojuegos y deportes extremos al aire libre, con una anotación 100% manual. Estudios con humanos muestran que PerceptionComp requiere un pensamiento sustancial durante la prueba y pasos de percepción repetidos: los participantes tardan mucho más que en puntos de referencia anteriores, y la precisión cae casi al nivel del azar (18,97%) cuando se impide la revisión de los videos. Los MLLMs de última generación también tienen un rendimiento sustancialmente peor en PerceptionComp que en los puntos de referencia existentes: el mejor modelo en nuestra evaluación, Gemini-3-Flash, alcanza solo un 45,96% de precisión en el entorno de cinco opciones, mientras que los modelos de código abierto se mantienen por debajo del 40%. Estos resultados sugieren que el razonamiento sobre videos de horizonte largo centrado en la percepción sigue siendo un cuello de botella importante, y esperamos que PerceptionComp ayude a impulsar el progreso en el razonamiento perceptual.

English

We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.

PerceptionComp: Un Punto de Referencia en Video para el Razonamiento Complejo Centrado en la Percepción

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Resumen

Support