SVBench: 社会的推論における映像生成モデルの評価
SVBench: Evaluation of Video Generation Models on Social Reasoning
December 25, 2025
著者: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang
cs.AI
要旨
近年のテキスト動画生成モデルは、視覚的なリアリズム、動きの忠実度、テキストと動画の整合性において顕著な進歩を示しているが、社会的に首尾一貫した行動を生成する能力には根本的な限界がある。短い視覚的手がかりから意図、信念、感情、社会的規範を容易に推論する人間とは異なり、現在のモデルは、根底にある因果的または心理的な論理を捉えることなく、文字通りの場面を描写しがちである。この隔たりを体系的に評価するため、我々は動画生成における社会的推論の最初のベンチマークを導入する。発達心理学及び社会心理学の知見に基づき、本ベンチマークは30の古典的社会認知パラダイムを、心的状態推論、目標指向行動、共同注意、社会的調整、向社会的行動、社会的規範、マルチエージェント戦略という7つの核心的次元に体系化する。これらのパラダイムを運用可能にするため、我々は完全に学習データに依存しないエージェントベースのパイプラインを開発した。これは、(i)各実験の推論メカニズムを抽出し、(ii)多様な動画生成対応シナリオを統合し、(iii)手がかりに基づく批評を通じて概念的中立性と難易度制御を強化し、(iv)高容量のVLM評価器を用いて、生成的動画を社会的推論の5つの解釈可能な次元にわたって評価するものである。この枠組みを用いて、我々は7つの最先端動画生成システムにわたる初の大規模研究を実施した。その結果、現代のモデルは表面的な妥当性には優れるものの、意図認識、信念推論、共同注意、向社会的推論において体系的に失敗しているという、重大な性能格差が明らかになった。
English
Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.