ChatPaper.aiChatPaper

PerceptionComp: 複雑な知覚中心推論のためのビデオベンチマーク

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

March 27, 2026
著者: Shaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna
cs.AI

要旨

本論文では、複雑で長期的な視覚中心の映像推論を評価するため、手動で注釈付けされたベンチマーク「PerceptionComp」を提案する。PerceptionCompは、単一の瞬間では不十分となるよう設計されている。各質問に答えるには、時間的に分散した複数の視覚的証拠と、連言的および順序的論理に基づく合成的制約を統合する必要があり、物体、属性、関係、位置、動作、イベントといった知覚的サブタスクにまたがり、意味認識、視覚的対応付け、時間推論、空間推論などのスキルを要する。本ベンチマークは、街歩きツアー、屋内別邸ツアー、ビデオゲーム、過酷なアウトドアスポーツなど多様な領域の279本の動画に基づく1,114問の高度に複雑な質問で構成され、注釈は100%手作業で行われた。人間を対象とした調査では、PerceptionCompが試験時間中の相当な思考と反復的な知覚プロセスを必要とすることが示された。被験者は従来のベンチマークよりはるかに長い時間を要し、動画の再視聴が禁止されると正答率がほぼ偶然の水準(18.97%)まで低下した。また、最先端の大規模言語モデル(MLLM)も、既存のベンチマークに比べてPerceptionCompで著しく低い性能を示した。評価において最高性能だったGemini-3-Flashですら、五者択一設定で45.96%の正答率に留まり、オープンソースモデルは40%を下回った。これらの結果は、知覚中心の長期的映像推論が依然として重大な課題であることを示唆する。我々はPerceptionCompが知覚的推論の進展を促進することを期待する。
English
We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.
PDF141April 3, 2026