OpenS2V-Nexus: Un punto de referencia detallado y un conjunto de datos a escala millonaria para la generación de sujeto a video

Resumen

La generación de Subject-to-Video (S2V) tiene como objetivo crear videos que incorporen fielmente contenido de referencia, ofreciendo una mayor flexibilidad en la producción de videos. Para establecer la infraestructura de la generación S2V, proponemos OpenS2V-Nexus, que consta de (i) OpenS2V-Eval, un benchmark de evaluación detallado, y (ii) OpenS2V-5M, un conjunto de datos a gran escala con millones de ejemplos. A diferencia de los benchmarks S2V existentes heredados de VBench, que se centran en una evaluación global y de grano grueso de los videos generados, OpenS2V-Eval se enfoca en la capacidad del modelo para generar videos consistentes con el sujeto, con una apariencia natural y fidelidad en la identidad. Para estos fines, OpenS2V-Eval introduce 180 prompts de siete categorías principales de S2V, que incorporan tanto datos de prueba reales como sintéticos. Además, para alinear con precisión las preferencias humanas con los benchmarks S2V, proponemos tres métricas automáticas: NexusScore, NaturalScore y GmeScore, que cuantifican por separado la consistencia del sujeto, la naturalidad y la relevancia del texto en los videos generados. Sobre esta base, realizamos una evaluación exhaustiva de 16 modelos S2V representativos, destacando sus fortalezas y debilidades en diferentes contenidos. Además, creamos el primer conjunto de datos de gran escala y de código abierto para la generación S2V, OpenS2V-5M, que consta de cinco millones de tripletas sujeto-texto-video de alta calidad en resolución 720P. Específicamente, aseguramos la diversidad de información sobre el sujeto en nuestro conjunto de datos mediante (1) la segmentación de sujetos y la construcción de información de emparejamiento a través de asociaciones entre videos y (2) el uso de GPT-Image-1 en fotogramas sin procesar para sintetizar representaciones multi-vista. A través de OpenS2V-Nexus, ofrecemos una infraestructura robusta para acelerar la investigación futura en generación S2V.

English

Subject-to-Video (S2V) generation aims to create videos that faithfully incorporate reference content, providing enhanced flexibility in the production of videos. To establish the infrastructure for S2V generation, we propose OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and (ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V benchmarks inherited from VBench that focus on global and coarse-grained assessment of generated videos, OpenS2V-Eval focuses on the model's ability to generate subject-consistent videos with natural subject appearance and identity fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven major categories of S2V, which incorporate both real and synthetic test data. Furthermore, to accurately align human preferences with S2V benchmarks, we propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to separately quantify subject consistency, naturalness, and text relevance in generated videos. Building on this, we conduct a comprehensive evaluation of 16 representative S2V models, highlighting their strengths and weaknesses across different content. Moreover, we create the first open-source large-scale S2V generation dataset OpenS2V-5M, which consists of five million high-quality 720P subject-text-video triples. Specifically, we ensure subject-information diversity in our dataset by (1) segmenting subjects and building pairing information via cross-video associations and (2) prompting GPT-Image-1 on raw frames to synthesize multi-view representations. Through OpenS2V-Nexus, we deliver a robust infrastructure to accelerate future S2V generation research.

OpenS2V-Nexus: Un punto de referencia detallado y un conjunto de datos a escala millonaria para la generación de sujeto a video

OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

Resumen

Support