SVBench: 사회적 추론에 대한 비디오 생성 모델 평가
SVBench: Evaluation of Video Generation Models on Social Reasoning
December 25, 2025
저자: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang
cs.AI
초록
최근 텍스트-비디오 생성 모델은 시각적 현실성, 움직임의 정확도, 텍스트-비디오 정렬 측면에서 놀라운 발전을 보여주고 있지만, 사회적으로 일관된 행동을 생성하는 능력에는 근본적인 한계가 있습니다. 인간이 짧은 시각적 단서에서 의도, 믿음, 감정, 사회적 규범을 쉽게 추론하는 것과 달리, 현재의 모델들은 근본적인 인과 관계나 심리적 논리를 포착하지 못한 채 문자 그대로의 장면을 구현하는 경향이 있습니다. 이러한 격차를 체계적으로 평가하기 위해, 우리는 비디오 생성에서의 사회적 추론을 위한 최초의 벤치마크를 소개합니다. 발달 심리학 및 사회 심리학의 연구 결과에 기반하여, 우리의 벤치마크는 30가지 고전적인 사회 인지 패러다임을 마음 상태 추론, 목표 지향적 행동, 공동 주의, 사회적 조율, 친사회적 행동, 사회적 규범, 다중 에이전트 전략 등 일곱 가지 핵심 차원으로 체계화합니다. 이러한 패러다임을 구현하기 위해 우리는 (i) 각 실험의 추론 메커니즘을 정제하고, (ii) 다양한 비디오 생성용 시나리오를 합성하며, (iii) 단서 기반 비판을 통해 개념적 중립성과 난이도 조절을 강화하고, (iv) 생성된 비디오를 고성능 VLM 평가자를 사용하여 사회적 추론의 다섯 가지 해석 가능한 차원에서 평가하는 완전히 훈련이 필요 없는 에이전트 기반 파이프라인을 개발했습니다. 이 프레임워크를 사용하여 우리는 7개의 최첨단 비디오 생성 시스템을 대상으로 첫 대규모 연구를 수행했습니다. 우리의 결과는 상당한 성능 격차를 보여줍니다: 현대 모델들은 표면적 타당성에서는 뛰어나지만, 의도 인식, 믿음 추론, 공동 주의, 친사회적 추론에서는 체계적으로 실패합니다.
English
Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.