SVBench : Évaluation des modèles de génération vidéo sur le raisonnement social
SVBench: Evaluation of Video Generation Models on Social Reasoning
December 25, 2025
papers.authors: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang
cs.AI
papers.abstract
Les modèles récents de génération texte-vidéo présentent des progrès remarquables en matière de réalisme visuel, de fidélité du mouvement et d'alignement texte-vidéo, mais ils restent fondamentalement limités dans leur capacité à générer des comportements socialement cohérents. Contrairement aux humains, qui infèrent sans effort les intentions, les croyances, les émotions et les normes sociales à partir de brefs indices visuels, les modèles actuels ont tendance à produire des scènes littérales sans saisir la logique causale ou psychologique sous-jacente. Pour évaluer systématiquement cet écart, nous introduisons le premier benchmark dédié au raisonnement social dans la génération vidéo. S'appuyant sur les résultats de la psychologie du développement et de la psychologie sociale, notre benchmark organise trente paradigmes classiques de cognition sociale en sept dimensions fondamentales, incluant l'inférence d'états mentaux, l'action orientée vers un but, l'attention conjointe, la coordination sociale, le comportement prosocial, les normes sociales et les stratégies multi-agents. Pour opérationnaliser ces paradigmes, nous développons une méthode entièrement libre d'apprentissage, basée sur des agents, qui (i) distille le mécanisme de raisonnement de chaque expérience, (ii) synthétise divers scénarios prêts pour la vidéo, (iii) impose une neutralité conceptuelle et un contrôle de la difficulté via une critique basée sur des indices, et (iv) évalue les vidéos générées à l'aide d'un juge VLM de grande capacité selon cinq dimensions interprétables du raisonnement social. En utilisant ce cadre, nous menons la première étude à grande échelle sur sept systèmes de génération vidéo de pointe. Nos résultats révèlent des écarts de performance substantiels : si les modèles modernes excellent dans la plausibilité de surface, ils échouent systématiquement dans la reconnaissance des intentions, le raisonnement sur les croyances, l'attention conjointe et l'inférence prosociale.
English
Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.