SVBench: Avaliação de Modelos de Geração de Vídeo em Raciocínio Social
SVBench: Evaluation of Video Generation Models on Social Reasoning
December 25, 2025
Autores: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang
cs.AI
Resumo
Os modelos recentes de geração de texto-para-vídeo exibem progresso notável no realismo visual, fidelidade de movimento e alinhamento texto-vídeo, mas permanecem fundamentalmente limitados em sua capacidade de gerar comportamentos socialmente coerentes. Diferentemente dos seres humanos, que inferem intenções, crenças, emoções e normas sociais com facilidade a partir de breves pistas visuais, os modelos atuais tendem a reproduzir cenas literais sem capturar a lógica causal ou psicológica subjacente. Para avaliar sistematicamente essa lacuna, introduzimos o primeiro benchmark para raciocínio social na geração de vídeo. Fundamentado em descobertas da psicologia do desenvolvimento e social, nosso benchmark organiza trinta paradigmas clássicos de cognição social em sete dimensões principais, incluindo inferência de estados mentais, ação direcionada a objetivos, atenção conjunta, coordenação social, comportamento pró-social, normas sociais e estratégia multiagente. Para operacionalizar esses paradigmas, desenvolvemos um pipeline baseado em agentes totalmente livre de treinamento que (i) destila o mecanismo de raciocínio de cada experimento, (ii) sintetiza diversos cenários prontos para vídeo, (iii) impõe neutralidade conceitual e controle de dificuldade por meio de crítica baseada em pistas, e (iv) avalia vídeos gerados usando um juiz de VLM de alta capacidade em cinco dimensões interpretáveis de raciocínio social. Usando essa estrutura, conduzimos o primeiro estudo em larga escala envolvendo sete sistemas de geração de vídeo state-of-the-art. Nossos resultados revelam lacunas substanciais de desempenho: enquanto os modelos modernos se destacam na plausibilidade superficial, eles falham sistematicamente no reconhecimento de intenções, raciocínio sobre crenças, atenção conjunta e inferência pró-social.
English
Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.