SVBench: Valutazione dei Modelli di Generazione Video sul Ragionamento Sociale

Abstract

I recenti modelli di generazione testo-video mostrano progressi notevoli nel realismo visivo, nella fedeltà del movimento e nell'allineamento testo-video, ma rimangono fondamentalmente limitati nella loro capacità di generare comportamenti socialmente coerenti. A differenza degli esseri umani, che inferiscono senza sforzo intenzioni, credenze, emozioni e norme sociali da brevi indizi visivi, i modelli attuali tendono a rappresentare scene in modo letterale senza cogliere la logica causale o psicologica sottostante. Per valutare sistematicamente questo divario, introduciamo il primo benchmark per il ragionamento sociale nella generazione video. Basandosi sui risultati della psicologia dello sviluppo e sociale, il nostro benchmark organizza trenta paradigmi classici della cognizione sociale in sette dimensioni fondamentali, tra cui l'inferenza degli stati mentali, l'azione finalizzata, l'attenzione condivisa, il coordinamento sociale, il comportamento prosociale, le norme sociali e le strategie multi-agente. Per rendere operativi questi paradigmi, sviluppiamo una pipeline completamente priva di addestramento basata su agenti che (i) distilla il meccanismo di ragionamento di ogni esperimento, (ii) sintetizza scenari diversificati pronti per il video, (iii) impone la neutralità concettuale e il controllo della difficoltà attraverso una critica basata su indizi, e (iv) valuta i video generati utilizzando un giudice VLM ad alta capacità attraverso cinque dimensioni interpretabili del ragionamento sociale. Utilizzando questo framework, conduciamo il primo studio su larga scala su sette sistemi all'avanguardia per la generazione video. I nostri risultati rivelano divari prestazionali sostanziali: mentre i modelli moderni eccellono nella plausibilità superficiale, falliscono sistematicamente nel riconoscimento delle intenzioni, nel ragionamento sulle credenze, nell'attenzione condivisa e nell'inferenza prosociale.

English

Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.

SVBench: Valutazione dei Modelli di Generazione Video sul Ragionamento Sociale

SVBench: Evaluation of Video Generation Models on Social Reasoning

Abstract

Support