ChatPaper.aiChatPaper

OpenS2V-Nexus: Um Benchmark Detalhado e Conjunto de Dados em Escala de Milhões para Geração de Assunto-para-Vídeo

OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

May 26, 2025
Autores: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan
cs.AI

Resumo

A geração de Subject-to-Video (S2V) visa criar vídeos que incorporam fielmente conteúdo de referência, oferecendo maior flexibilidade na produção de vídeos. Para estabelecer a infraestrutura para a geração de S2V, propomos o OpenS2V-Nexus, composto por (i) OpenS2V-Eval, um benchmark de avaliação detalhada, e (ii) OpenS2V-5M, um conjunto de dados em escala de milhões. Em contraste com os benchmarks de S2V existentes, herdados do VBench, que se concentram em avaliações globais e de alto nível dos vídeos gerados, o OpenS2V-Eval foca na capacidade do modelo de gerar vídeos consistentes com o assunto, com aparência natural e fidelidade de identidade. Para esses propósitos, o OpenS2V-Eval introduz 180 prompts de sete categorias principais de S2V, que incorporam dados de teste reais e sintéticos. Além disso, para alinhar com precisão as preferências humanas aos benchmarks de S2V, propomos três métricas automáticas, NexusScore, NaturalScore e GmeScore, para quantificar separadamente a consistência do assunto, a naturalidade e a relevância textual nos vídeos gerados. Com base nisso, realizamos uma avaliação abrangente de 16 modelos representativos de S2V, destacando seus pontos fortes e fracos em diferentes conteúdos. Além disso, criamos o primeiro conjunto de dados de grande escala e código aberto para geração de S2V, o OpenS2V-5M, que consiste em cinco milhões de triplas de alta qualidade (assunto-texto-vídeo) em 720P. Especificamente, garantimos a diversidade de informações sobre o assunto em nosso conjunto de dados por meio de (1) segmentação de assuntos e construção de informações de emparelhamento via associações entre vídeos e (2) uso do GPT-Image-1 em quadros brutos para sintetizar representações de múltiplas perspectivas. Através do OpenS2V-Nexus, entregamos uma infraestrutura robusta para acelerar futuras pesquisas em geração de S2V.
English
Subject-to-Video (S2V) generation aims to create videos that faithfully incorporate reference content, providing enhanced flexibility in the production of videos. To establish the infrastructure for S2V generation, we propose OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and (ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V benchmarks inherited from VBench that focus on global and coarse-grained assessment of generated videos, OpenS2V-Eval focuses on the model's ability to generate subject-consistent videos with natural subject appearance and identity fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven major categories of S2V, which incorporate both real and synthetic test data. Furthermore, to accurately align human preferences with S2V benchmarks, we propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to separately quantify subject consistency, naturalness, and text relevance in generated videos. Building on this, we conduct a comprehensive evaluation of 16 representative S2V models, highlighting their strengths and weaknesses across different content. Moreover, we create the first open-source large-scale S2V generation dataset OpenS2V-5M, which consists of five million high-quality 720P subject-text-video triples. Specifically, we ensure subject-information diversity in our dataset by (1) segmenting subjects and building pairing information via cross-video associations and (2) prompting GPT-Image-1 on raw frames to synthesize multi-view representations. Through OpenS2V-Nexus, we deliver a robust infrastructure to accelerate future S2V generation research.
PDF523December 4, 2025