OpenS2V-Nexus: Un punto de referencia detallado y un conjunto de datos a escala millonaria para la generación de sujeto a video
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation
May 26, 2025
Autores: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan
cs.AI
Resumen
La generación de Subject-to-Video (S2V) tiene como objetivo crear videos que incorporen fielmente contenido de referencia, ofreciendo una mayor flexibilidad en la producción de videos. Para establecer la infraestructura de la generación S2V, proponemos OpenS2V-Nexus, que consta de (i) OpenS2V-Eval, un benchmark de evaluación detallado, y (ii) OpenS2V-5M, un conjunto de datos a gran escala con millones de ejemplos. A diferencia de los benchmarks S2V existentes heredados de VBench, que se centran en una evaluación global y de grano grueso de los videos generados, OpenS2V-Eval se enfoca en la capacidad del modelo para generar videos consistentes con el sujeto, con una apariencia natural y fidelidad en la identidad. Para estos fines, OpenS2V-Eval introduce 180 prompts de siete categorías principales de S2V, que incorporan tanto datos de prueba reales como sintéticos. Además, para alinear con precisión las preferencias humanas con los benchmarks S2V, proponemos tres métricas automáticas: NexusScore, NaturalScore y GmeScore, que cuantifican por separado la consistencia del sujeto, la naturalidad y la relevancia del texto en los videos generados. Sobre esta base, realizamos una evaluación exhaustiva de 16 modelos S2V representativos, destacando sus fortalezas y debilidades en diferentes contenidos. Además, creamos el primer conjunto de datos de gran escala y de código abierto para la generación S2V, OpenS2V-5M, que consta de cinco millones de tripletas sujeto-texto-video de alta calidad en resolución 720P. Específicamente, aseguramos la diversidad de información sobre el sujeto en nuestro conjunto de datos mediante (1) la segmentación de sujetos y la construcción de información de emparejamiento a través de asociaciones entre videos y (2) el uso de GPT-Image-1 en fotogramas sin procesar para sintetizar representaciones multi-vista. A través de OpenS2V-Nexus, ofrecemos una infraestructura robusta para acelerar la investigación futura en generación S2V.
English
Subject-to-Video (S2V) generation aims to create videos that faithfully
incorporate reference content, providing enhanced flexibility in the production
of videos. To establish the infrastructure for S2V generation, we propose
OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and
(ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V
benchmarks inherited from VBench that focus on global and coarse-grained
assessment of generated videos, OpenS2V-Eval focuses on the model's ability to
generate subject-consistent videos with natural subject appearance and identity
fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven
major categories of S2V, which incorporate both real and synthetic test data.
Furthermore, to accurately align human preferences with S2V benchmarks, we
propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to
separately quantify subject consistency, naturalness, and text relevance in
generated videos. Building on this, we conduct a comprehensive evaluation of 16
representative S2V models, highlighting their strengths and weaknesses across
different content. Moreover, we create the first open-source large-scale S2V
generation dataset OpenS2V-5M, which consists of five million high-quality 720P
subject-text-video triples. Specifically, we ensure subject-information
diversity in our dataset by (1) segmenting subjects and building pairing
information via cross-video associations and (2) prompting GPT-Image-1 on raw
frames to synthesize multi-view representations. Through OpenS2V-Nexus, we
deliver a robust infrastructure to accelerate future S2V generation research.Summary
AI-Generated Summary