CustomVideo: Anpassung der Text-zu-Video-Generierung mit mehreren Subjekten
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
January 18, 2024
Autoren: Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li
cs.AI
Zusammenfassung
Die maßgeschneiderte Text-zu-Video-Generierung zielt darauf ab, hochwertige Videos anhand von Textanweisungen und Subjektreferenzen zu erzeugen. Aktuelle Ansätze, die für einzelne Subjekte entwickelt wurden, haben Schwierigkeiten, mehrere Subjekte zu behandeln, was ein anspruchsvolleres und praktischeres Szenario darstellt. In dieser Arbeit streben wir die Förderung der mehrsubjektgesteuerten Text-zu-Video-Anpassung an. Wir präsentieren CustomVideo, ein neuartiges Framework, das identitätserhaltende Videos unter der Anleitung mehrerer Subjekte generieren kann. Konkret fördern wir zunächst das gleichzeitige Auftreten mehrerer Subjekte, indem wir sie in einem einzigen Bild zusammenführen. Darüber hinaus entwickeln wir auf der Grundlage eines grundlegenden Text-zu-Video-Diffusionsmodells eine einfache, aber effektive Aufmerksamkeitssteuerungsstrategie, um verschiedene Subjekte im latenten Raum des Diffusionsmodells zu entflechten. Um dem Modell zu helfen, sich auf den spezifischen Objektbereich zu konzentrieren, segmentieren wir das Objekt aus den gegebenen Referenzbildern und stellen eine entsprechende Objektmaske für das Aufmerksamkeitslernen bereit. Zudem haben wir einen mehrsubjektbezogenen Text-zu-Video-Generierungsdatensatz als umfassende Benchmark erstellt, der 69 einzelne Subjekte und 57 sinnvolle Paare umfasst. Umfangreiche qualitative, quantitative und Nutzerstudien-Ergebnisse demonstrieren die Überlegenheit unserer Methode im Vergleich zu den bisherigen State-of-the-Art-Ansätzen.
English
Customized text-to-video generation aims to generate high-quality videos
guided by text prompts and subject references. Current approaches designed for
single subjects suffer from tackling multiple subjects, which is a more
challenging and practical scenario. In this work, we aim to promote
multi-subject guided text-to-video customization. We propose CustomVideo, a
novel framework that can generate identity-preserving videos with the guidance
of multiple subjects. To be specific, firstly, we encourage the co-occurrence
of multiple subjects via composing them in a single image. Further, upon a
basic text-to-video diffusion model, we design a simple yet effective attention
control strategy to disentangle different subjects in the latent space of
diffusion model. Moreover, to help the model focus on the specific object area,
we segment the object from given reference images and provide a corresponding
object mask for attention learning. Also, we collect a multi-subject
text-to-video generation dataset as a comprehensive benchmark, with 69
individual subjects and 57 meaningful pairs. Extensive qualitative,
quantitative, and user study results demonstrate the superiority of our method,
compared with the previous state-of-the-art approaches.