ChatPaper.aiChatPaper

SVBench: Evaluatie van Videogeneratiemodellen op Sociaal Redeneervermogen

SVBench: Evaluation of Video Generation Models on Social Reasoning

December 25, 2025
Auteurs: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang
cs.AI

Samenvatting

Recente tekst-naar-video-generatiemodellen tonen een opmerkelijke vooruitgang in visueel realisme, bewegingsnauwkeurigheid en tekst-video-overeenstemming, maar ze blijven fundamenteel beperkt in hun vermogen om sociaal coherent gedrag te genereren. In tegenstelling tot mensen, die moeiteloos intenties, overtuigingen, emoties en sociale normen afleiden uit korte visuele aanwijzingen, hebben huidige modellen de neiging om letterlijke scènes weer te geven zonder de onderliggende causale of psychologische logica te vatten. Om deze kloof systematisch te evalueren, introduceren we de eerste benchmark voor sociaal redeneren in videogeneratie. Geworteld in bevindingen uit de ontwikkelings- en sociale psychologie, organiseert onze benchmark dertig klassieke sociaal-cognitieve paradigma's in zeven kerndimensies, waaronder mentale-toestand-inferentie, doelgericht handelen, gedeelde aandacht, sociale coördinatie, prosociaal gedrag, sociale normen en multi-agentstrategie. Om deze paradigma's te operationaliseren, ontwikkelen we een volledig trainingsvrije, agent-gebaseerde pijplijn die (i) het redeneermechanisme van elk experiment destilleert, (ii) diverse videogereed scenario's synthetiseert, (iii) conceptuele neutraliteit en moeilijkheidscontrole afdwingt via op cues gebaseerde kritiek, en (iv) gegenereerde video's evalueert met behulp van een hoogcapaciteits VLM-beoordelaar over vijf interpreteerbare dimensies van sociaal redeneren. Met dit framework voeren we de eerste grootschalige studie uit over zeven state-of-the-art videogeneratiesystemen. Onze resultaten onthullen aanzienlijke prestatiekloven: hoewel moderne modellen uitblinken in oppervlakkige geloofwaardigheid, falen ze systematisch in intentieherkenning, overtuigingsredenering, gedeelde aandacht en prosociale inferentie.
English
Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.
PDF51December 30, 2025