ChatPaper.aiChatPaper

SVBench: Оценка моделей генерации видео на основе социального мышления

SVBench: Evaluation of Video Generation Models on Social Reasoning

December 25, 2025
Авторы: Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang
cs.AI

Аннотация

Современные модели генерации видео по тексту демонстрируют значительный прогресс в области визуального реализма, правдоподобия движений и соответствия тексту и видео, однако их фундаментальные возможности по генерации социально-когерентного поведения остаются ограниченными. В отличие от людей, которые с легкостью выводят намерения, убеждения, эмоции и социальные нормы из кратких визуальных сигналов, современные модели склонны воспроизводить буквальные сцены, не улавливая лежащую в их основе причинно-следственную или психологическую логику. Для систематической оценки этого разрыва мы представляем первый бенчмарк для оценки социального мышления в генерации видео. Основываясь на выводах из областей психологии развития и социальной психологии, наш бенчмарк организует тридцать классических парадигм социального познания по семи ключевым измерениям, включая выводы о ментальных состояниях, целенаправленные действия, совместное внимание, социальную координацию, просоциальное поведение, социальные нормы и стратегии взаимодействия множества агентов. Для операционализации этих парадигм мы разработали полностью свободный от обучения агент-ориентированный конвейер, который (i) извлекает механизм рассуждений каждого эксперимента, (ii) синтезирует разнообразные сценарии, пригодные для генерации видео, (iii) обеспечивает концептуальную нейтральность и контроль сложности с помощью критики на основе сигналов и (iv) оценивает сгенерированные видео с использованием VLM-судии высокой мощности по пяти интерпретируемым измерениям социального мышления. Используя эту структуру, мы провели первое масштабное исследование семи передовых систем генерации видео. Наши результаты выявляют существенные пробелы в производительности: в то время как современные модели преуспевают в поверхностной правдоподобности, они систематически терпят неудачу в распознавании намерений, рассуждениях об убеждениях, совместном внимании и просоциальных выводах.
English
Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.
PDF51December 30, 2025