SVBench: Bewertung von Videogenerierungsmodellen im Bereich des sozialen Denkens
SVBench: Evaluation of Video Generation Models on Social Reasoning
December 25, 2025
papers.authors: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang
cs.AI
papers.abstract
Aktuelle Text-zu-Video-Generierungsmodelle zeigen bemerkenswerte Fortschritte in Bezug auf visuelle Realitätssnähe, Bewegungsqualität und Text-Video-Übereinstimmung, sind jedoch grundsätzlich in ihrer Fähigkeit eingeschränkt, sozial kohärentes Verhalten zu generieren. Im Gegensatz zu Menschen, die mühelos Absichten, Überzeugungen, Emotionen und soziale Normen aus kurzen visuellen Hinweisen ableiten, neigen aktuelle Modelle dazu, Szenen wortwörtlich darzustellen, ohne die zugrunde liegende kausale oder psychologische Logik zu erfassen. Um diese Lücke systematisch zu bewerten, führen wir den ersten Benchmark für soziales Reasoning in der Videogenerierung ein. Aufbauend auf Erkenntnissen aus der Entwicklungs- und Sozialpsychologie organisiert unser Benchmark dreißig klassische Paradigmen der sozialen Kognition in sieben Kernbereiche: Inferenz von mentalen Zuständen, zielgerichtetes Handeln, gemeinsame Aufmerksamkeit, soziale Koordination, prosoziales Verhalten, soziale Normen und Multi-Agenten-Strategien. Um diese Paradigmen operationalisierbar zu machen, entwickeln wir eine vollständig trainingsfreie, agentenbasierte Pipeline, die (i) den Reasoning-Mechanismus jedes Experiments destilliert, (ii) diverse videotaugliche Szenarien synthetisiert, (iii) konzeptionelle Neutralität und Schwierigkeitskontrolle durch cue-basierte Kritik durchsetzt und (iv) generierte Videos mithilfe eines hochkapazitiven VLM-Judges über fünf interpretierbare Dimensionen des sozialen Reasonings hinweg bewertet. Mit diesem Framework führen wir die erste groß angelegte Studie mit sieben modernsten Videogenerierungssystemen durch. Unsere Ergebnisse zeigen erhebliche Leistungslücken: Während moderne Modelle auf oberflächlicher Plausibilitätsebene hervorragend abschneiden, scheitern sie systematisch bei der Absichtserkennung, der Überzeugungsverarbeitung (Belief Reasoning), der gemeinsamen Aufmerksamkeit und der prosozialen Inferenz.
English
Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.