ChatPaper.aiChatPaper

SVBench: Evaluación de Modelos de Generación de Vídeo en Razonamiento Social

SVBench: Evaluation of Video Generation Models on Social Reasoning

December 25, 2025
Autores: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang
cs.AI

Resumen

Los modelos recientes de generación de texto a vídeo muestran un progreso notable en realismo visual, fidelidad del movimiento y alineación texto-vídeo, pero siguen estando fundamentalmente limitados en su capacidad para generar comportamientos socialmente coherentes. A diferencia de los humanos, que infieren sin esfuerzo intenciones, creencias, emociones y normas sociales a partir de breves indicios visuales, los modelos actuales tienden a representar escenas literales sin capturar la lógica causal o psicológica subyacente. Para evaluar sistemáticamente esta brecha, presentamos el primer punto de referencia para el razonamiento social en la generación de vídeo. Basado en hallazgos de la psicología del desarrollo y social, nuestro benchmark organiza treinta paradigmas clásicos de cognición social en siete dimensiones principales: inferencia de estados mentales, acción dirigida a objetivos, atención conjunta, coordinación social, comportamiento prosocial, normas sociales y estrategia multiagente. Para operacionalizar estos paradigmas, desarrollamos un pipeline basado en agentes completamente libre de entrenamiento que (i) destila el mecanismo de razonamiento de cada experimento, (ii) sintetiza diversos escenarios listos para vídeo, (iii) aplica neutralidad conceptual y control de dificultad mediante crítica basada en indicios, y (iv) evalúa los vídeos generados utilizando un juez VLM de alta capacidad a través de cinco dimensiones interpretables de razonamiento social. Utilizando este marco, realizamos el primer estudio a gran escala en siete sistemas de generación de vídeo de última generación. Nuestros resultados revelan brechas de rendimiento sustanciales: mientras que los modelos modernos sobresalen en plausibilidad superficial, fallan sistemáticamente en el reconocimiento de intenciones, el razonamiento sobre creencias, la atención conjunta y la inferencia prosocial.
English
Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.
PDF51December 30, 2025