ChatPaper.aiChatPaper

OpenS2V-Nexus : Un Benchmark Détaillé et un Jeu de Données à l'Échelle du Million pour la Génération de Sujets vers Vidéo

OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

May 26, 2025
Auteurs: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan
cs.AI

Résumé

La génération Sujet-à-Vidéo (S2V) vise à créer des vidéos qui intègrent fidèlement du contenu de référence, offrant ainsi une flexibilité accrue dans la production de vidéos. Pour établir l'infrastructure nécessaire à la génération S2V, nous proposons OpenS2V-Nexus, composé de (i) OpenS2V-Eval, un benchmark granulaire, et (ii) OpenS2V-5M, un jeu de données à l'échelle du million. Contrairement aux benchmarks S2V existants hérités de VBench, qui se concentrent sur une évaluation globale et grossière des vidéos générées, OpenS2V-Eval se focalise sur la capacité du modèle à générer des vidéos cohérentes avec le sujet, présentant une apparence naturelle et une fidélité à l'identité du sujet. À cette fin, OpenS2V-Eval introduit 180 prompts issus de sept catégories principales de S2V, intégrant à la fois des données de test réelles et synthétiques. De plus, pour aligner précisément les préférences humaines avec les benchmarks S2V, nous proposons trois métriques automatiques, NexusScore, NaturalScore et GmeScore, pour quantifier respectivement la cohérence du sujet, le naturel et la pertinence textuelle dans les vidéos générées. Sur cette base, nous menons une évaluation complète de 16 modèles S2V représentatifs, mettant en lumière leurs forces et faiblesses selon différents contenus. Par ailleurs, nous créons le premier jeu de données open-source à grande échelle pour la génération S2V, OpenS2V-5M, qui comprend cinq millions de triplets sujet-texte-vidéo de haute qualité en 720P. Plus précisément, nous assurons la diversité des informations sur le sujet dans notre jeu de données en (1) segmentant les sujets et en construisant des informations d'appariement via des associations inter-vidéos, et (2) en utilisant GPT-Image-1 sur des images brutes pour synthétiser des représentations multi-vues. Grâce à OpenS2V-Nexus, nous fournissons une infrastructure robuste pour accélérer les futures recherches sur la génération S2V.
English
Subject-to-Video (S2V) generation aims to create videos that faithfully incorporate reference content, providing enhanced flexibility in the production of videos. To establish the infrastructure for S2V generation, we propose OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and (ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V benchmarks inherited from VBench that focus on global and coarse-grained assessment of generated videos, OpenS2V-Eval focuses on the model's ability to generate subject-consistent videos with natural subject appearance and identity fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven major categories of S2V, which incorporate both real and synthetic test data. Furthermore, to accurately align human preferences with S2V benchmarks, we propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to separately quantify subject consistency, naturalness, and text relevance in generated videos. Building on this, we conduct a comprehensive evaluation of 16 representative S2V models, highlighting their strengths and weaknesses across different content. Moreover, we create the first open-source large-scale S2V generation dataset OpenS2V-5M, which consists of five million high-quality 720P subject-text-video triples. Specifically, we ensure subject-information diversity in our dataset by (1) segmenting subjects and building pairing information via cross-video associations and (2) prompting GPT-Image-1 on raw frames to synthesize multi-view representations. Through OpenS2V-Nexus, we deliver a robust infrastructure to accelerate future S2V generation research.

Summary

AI-Generated Summary

PDF523May 28, 2025