ChatPaper.aiChatPaper

OpenS2V-Nexus: Un Benchmark Dettagliato e un Dataset su Scala Milionaria per la Generazione da Soggetto a Video

OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

May 26, 2025
Autori: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan
cs.AI

Abstract

La generazione da Soggetto a Video (S2V) mira a creare video che incorporino fedelmente contenuti di riferimento, offrendo una maggiore flessibilità nella produzione di video. Per stabilire l'infrastruttura per la generazione S2V, proponiamo OpenS2V-Nexus, composto da (i) OpenS2V-Eval, un benchmark granulare, e (ii) OpenS2V-5M, un dataset su scala milionaria. A differenza dei benchmark S2V esistenti ereditati da VBench che si concentrano su una valutazione globale e grossolana dei video generati, OpenS2V-Eval si focalizza sulla capacità del modello di generare video coerenti con il soggetto, con un aspetto naturale e una fedeltà all'identità del soggetto. A tal fine, OpenS2V-Eval introduce 180 prompt provenienti da sette categorie principali di S2V, che incorporano sia dati di test reali che sintetici. Inoltre, per allineare accuratamente le preferenze umane con i benchmark S2V, proponiamo tre metriche automatiche, NexusScore, NaturalScore e GmeScore, per quantificare separatamente la coerenza del soggetto, la naturalezza e la rilevanza del testo nei video generati. Sulla base di ciò, conduciamo una valutazione completa di 16 modelli S2V rappresentativi, evidenziandone punti di forza e debolezze in diversi contenuti. Inoltre, creiamo il primo dataset open-source su larga scala per la generazione S2V, OpenS2V-5M, che consiste in cinque milioni di triplette soggetto-testo-video di alta qualità in 720P. Nello specifico, garantiamo la diversità delle informazioni sul soggetto nel nostro dataset (1) segmentando i soggetti e costruendo informazioni di accoppiamento attraverso associazioni cross-video e (2) utilizzando GPT-Image-1 sui frame grezzi per sintetizzare rappresentazioni multi-vista. Attraverso OpenS2V-Nexus, forniamo un'infrastruttura robusta per accelerare la futura ricerca sulla generazione S2V.
English
Subject-to-Video (S2V) generation aims to create videos that faithfully incorporate reference content, providing enhanced flexibility in the production of videos. To establish the infrastructure for S2V generation, we propose OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and (ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V benchmarks inherited from VBench that focus on global and coarse-grained assessment of generated videos, OpenS2V-Eval focuses on the model's ability to generate subject-consistent videos with natural subject appearance and identity fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven major categories of S2V, which incorporate both real and synthetic test data. Furthermore, to accurately align human preferences with S2V benchmarks, we propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to separately quantify subject consistency, naturalness, and text relevance in generated videos. Building on this, we conduct a comprehensive evaluation of 16 representative S2V models, highlighting their strengths and weaknesses across different content. Moreover, we create the first open-source large-scale S2V generation dataset OpenS2V-5M, which consists of five million high-quality 720P subject-text-video triples. Specifically, we ensure subject-information diversity in our dataset by (1) segmenting subjects and building pairing information via cross-video associations and (2) prompting GPT-Image-1 on raw frames to synthesize multi-view representations. Through OpenS2V-Nexus, we deliver a robust infrastructure to accelerate future S2V generation research.
PDF543May 28, 2025