OpenS2V-Nexus: Ein detaillierter Benchmark und ein Millionen-umfassender Datensatz für die Subjekt-zu-Video-Generierung
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation
May 26, 2025
Autoren: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan
cs.AI
Zusammenfassung
Subject-to-Video (S2V)-Generierung zielt darauf ab, Videos zu erstellen, die Referenzinhalte treu einbeziehen und somit eine verbesserte Flexibilität in der Videoproduktion bieten. Um die Infrastruktur für die S2V-Generierung zu etablieren, schlagen wir OpenS2V-Nexus vor, das aus (i) OpenS2V-Eval, einem feinkörnigen Benchmark, und (ii) OpenS2V-5M, einem Millionen-umfassenden Datensatz, besteht. Im Gegensatz zu bestehenden S2V-Benchmarks, die von VBench übernommen wurden und sich auf globale und grobkörnige Bewertungen generierter Videos konzentrieren, legt OpenS2V-Eval den Fokus auf die Fähigkeit des Modells, subjektkonsistente Videos mit natürlicher Subjektdarstellung und Identitätstreue zu generieren. Zu diesem Zweck führt OpenS2V-Eval 180 Prompts aus sieben Hauptkategorien der S2V ein, die sowohl reale als auch synthetische Testdaten beinhalten. Darüber hinaus schlagen wir drei automatische Metriken vor, NexusScore, NaturalScore und GmeScore, um die Subjektkonsistenz, Natürlichkeit und Textrelevanz in generierten Videos separat zu quantifizieren und so die menschlichen Präferenzen präzise mit den S2V-Benchmarks abzustimmen. Aufbauend darauf führen wir eine umfassende Bewertung von 16 repräsentativen S2V-Modellen durch, die deren Stärken und Schwächen in verschiedenen Inhalten hervorhebt. Zudem erstellen wir den ersten Open-Source-Großdatensatz für die S2V-Generierung, OpenS2V-5M, der aus fünf Millionen hochwertigen 720P-Subjekt-Text-Video-Triplets besteht. Insbesondere stellen wir die Subjektinformationsvielfalt in unserem Datensatz sicher, indem wir (1) Subjekte segmentieren und Paarungsinformationen durch cross-video Assoziationen aufbauen und (2) GPT-Image-1 auf Rohframes anwenden, um multi-view Repräsentationen zu synthetisieren. Durch OpenS2V-Nexus liefern wir eine robuste Infrastruktur, um zukünftige Forschungen zur S2V-Generierung zu beschleunigen.
English
Subject-to-Video (S2V) generation aims to create videos that faithfully
incorporate reference content, providing enhanced flexibility in the production
of videos. To establish the infrastructure for S2V generation, we propose
OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and
(ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V
benchmarks inherited from VBench that focus on global and coarse-grained
assessment of generated videos, OpenS2V-Eval focuses on the model's ability to
generate subject-consistent videos with natural subject appearance and identity
fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven
major categories of S2V, which incorporate both real and synthetic test data.
Furthermore, to accurately align human preferences with S2V benchmarks, we
propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to
separately quantify subject consistency, naturalness, and text relevance in
generated videos. Building on this, we conduct a comprehensive evaluation of 16
representative S2V models, highlighting their strengths and weaknesses across
different content. Moreover, we create the first open-source large-scale S2V
generation dataset OpenS2V-5M, which consists of five million high-quality 720P
subject-text-video triples. Specifically, we ensure subject-information
diversity in our dataset by (1) segmenting subjects and building pairing
information via cross-video associations and (2) prompting GPT-Image-1 on raw
frames to synthesize multi-view representations. Through OpenS2V-Nexus, we
deliver a robust infrastructure to accelerate future S2V generation research.Summary
AI-Generated Summary