PerceptionComp: 복합적 인지 중심 추론을 위한 비디오 벤치마크
PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning
March 27, 2026
저자: Shaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna
cs.AI
초록
우리는 복잡하고 장기간에 걸친 지각 중심 비디오 추론을 위한 수동 주석 기반 벤치마크인 PerceptionComp를 소개한다. PerceptionComp는 단일 순간만으로는 충분하지 않도록 설계되었다: 각 질문에 답하기 위해서는 객체, 속성, 관계, 위치, 행동, 사건 등의 지각적 하위 작업에 걸쳐 있으며, 의미론적 인식, 시각적 대응, 시간적 추론, 공간적 추론 등의 기술을 요구하는 접속 및 순차 논리 하의 구성적 제약 조건과 함께 시간적으로 분리된 여러 개의 시각적 증거가 필요하다. 이 벤치마크는 도시 걷기 투어, 실내 별장 투어, 비디오 게임, 극한 야외 스포츠 등 다양한 영역의 279개 비디오에 대해 1,114개의 매우 복잡한 질문을 포함하며, 100% 수동 주석이 달려 있다. 인간 대상 연구에 따르면 PerceptionComp는 상당한 수준의 테스트 시간 사고와 반복적인 지각 단계를 요구한다: 참가자들은 기존 벤치마크보다 훨씬 더 오래 걸리며, 다시 보기가 허용되지 않을 경우 정확도가 거우 우연 수준(18.97%)으로 떨어진다. 최첨단 MLLM들도 PerceptionComp에서 기존 벤치마크보다 상당히 낮은 성능을 보인다: 우리 평가에서 가장 좋은 모델인 Gemini-3-Flash는 5지 선다 설정에서 45.96%의 정확도에 그치는 반면, 오픈소스 모델들은 40% 미만에 머물렀다. 이러한 결과는 지각 중심의 장기간 비디오 추론이 여전히 주요 병목 현상임을 시사하며, 우리는 PerceptionComp가 지각적 추론 분야의 발전을 촉진하는 데 도움이 되기를 희망한다.
English
We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.