OpenS2V-Nexus: Um Benchmark Detalhado e Conjunto de Dados em Escala de Milhões para Geração de Assunto-para-Vídeo
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation
May 26, 2025
Autores: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan
cs.AI
Resumo
A geração de Subject-to-Video (S2V) visa criar vídeos que incorporam fielmente conteúdo de referência, oferecendo maior flexibilidade na produção de vídeos. Para estabelecer a infraestrutura para a geração de S2V, propomos o OpenS2V-Nexus, composto por (i) OpenS2V-Eval, um benchmark de avaliação detalhada, e (ii) OpenS2V-5M, um conjunto de dados em escala de milhões. Em contraste com os benchmarks de S2V existentes, herdados do VBench, que se concentram em avaliações globais e de alto nível dos vídeos gerados, o OpenS2V-Eval foca na capacidade do modelo de gerar vídeos consistentes com o assunto, com aparência natural e fidelidade de identidade. Para esses propósitos, o OpenS2V-Eval introduz 180 prompts de sete categorias principais de S2V, que incorporam dados de teste reais e sintéticos. Além disso, para alinhar com precisão as preferências humanas aos benchmarks de S2V, propomos três métricas automáticas, NexusScore, NaturalScore e GmeScore, para quantificar separadamente a consistência do assunto, a naturalidade e a relevância textual nos vídeos gerados. Com base nisso, realizamos uma avaliação abrangente de 16 modelos representativos de S2V, destacando seus pontos fortes e fracos em diferentes conteúdos. Além disso, criamos o primeiro conjunto de dados de grande escala e código aberto para geração de S2V, o OpenS2V-5M, que consiste em cinco milhões de triplas de alta qualidade (assunto-texto-vídeo) em 720P. Especificamente, garantimos a diversidade de informações sobre o assunto em nosso conjunto de dados por meio de (1) segmentação de assuntos e construção de informações de emparelhamento via associações entre vídeos e (2) uso do GPT-Image-1 em quadros brutos para sintetizar representações de múltiplas perspectivas. Através do OpenS2V-Nexus, entregamos uma infraestrutura robusta para acelerar futuras pesquisas em geração de S2V.
English
Subject-to-Video (S2V) generation aims to create videos that faithfully
incorporate reference content, providing enhanced flexibility in the production
of videos. To establish the infrastructure for S2V generation, we propose
OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and
(ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V
benchmarks inherited from VBench that focus on global and coarse-grained
assessment of generated videos, OpenS2V-Eval focuses on the model's ability to
generate subject-consistent videos with natural subject appearance and identity
fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven
major categories of S2V, which incorporate both real and synthetic test data.
Furthermore, to accurately align human preferences with S2V benchmarks, we
propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to
separately quantify subject consistency, naturalness, and text relevance in
generated videos. Building on this, we conduct a comprehensive evaluation of 16
representative S2V models, highlighting their strengths and weaknesses across
different content. Moreover, we create the first open-source large-scale S2V
generation dataset OpenS2V-5M, which consists of five million high-quality 720P
subject-text-video triples. Specifically, we ensure subject-information
diversity in our dataset by (1) segmenting subjects and building pairing
information via cross-video associations and (2) prompting GPT-Image-1 on raw
frames to synthesize multi-view representations. Through OpenS2V-Nexus, we
deliver a robust infrastructure to accelerate future S2V generation research.