Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieses Papier stellt ein steuerbares Text-zu-Video (T2V) Diffusionsmodell vor, das den Namen Video-ControlNet trägt und Videos auf der Grundlage einer Sequenz von Steuersignalen, wie Kanten- oder Tiefenkarten, generiert. Video-ControlNet basiert auf einem vortrainierten bedingten Text-zu-Bild (T2I) Diffusionsmodell, indem es einen räumlich-zeitlichen Selbstaufmerksamkeitsmechanismus und trainierbare zeitliche Schichten für eine effiziente modellübergreifende Rahmenverarbeitung integriert. Eine First-Frame-Konditionierungsstrategie wird vorgeschlagen, um das Modell zu befähigen, Videos aus dem Bildbereich zu übertragen sowie Videos beliebiger Länge in einer autoregressiven Weise zu generieren. Darüber hinaus verwendet Video-ControlNet eine neuartige, auf Residuen basierende Rauschinitialisierungsstrategie, um Bewegungsvorinformationen aus einem Eingabevideo einzuführen, wodurch kohärentere Videos erzeugt werden. Mit der vorgeschlagenen Architektur und den Strategien kann Video-ControlNet eine ressourceneffiziente Konvergenz erreichen und Videos von überlegener Qualität und Konsistenz mit feinkörniger Steuerung generieren. Umfangreiche Experimente demonstrieren seinen Erfolg in verschiedenen videogenerativen Aufgaben wie Video-Bearbeitung und Video-Stil-Transfer, wobei es frühere Methoden in Bezug auf Konsistenz und Qualität übertrifft. Projektseite: https://controlavideo.github.io/
Aktuelle Text-zu-Bild-Generierungsmodelle haben beeindruckende Fähigkeiten bei der Erstellung von textausgerichteten Bildern mit hoher Detailtreue gezeigt. Die Generierung von Bildern neuartiger Konzepte, die durch ein vom Benutzer bereitgestelltes Eingabebild vorgegeben werden, bleibt jedoch eine herausfordernde Aufgabe. Um dieses Problem zu lösen, erforschen Forscher verschiedene Methoden zur Anpassung vortrainierter Text-zu-Bild-Generierungsmodelle. Derzeit beinhalten die meisten bestehenden Methoden zur Anpassung vortrainierter Text-zu-Bild-Generierungsmodelle den Einsatz von Regularisierungstechniken, um Überanpassung zu verhindern. Während Regularisierung die Herausforderung der Anpassung erleichtert und eine erfolgreiche Inhaltserstellung in Bezug auf die Textführung ermöglicht, kann sie die Modellfähigkeiten einschränken, was zu einem Verlust detaillierter Informationen und einer geringeren Leistung führt. In dieser Arbeit schlagen wir ein neuartiges Framework für die angepasste Text-zu-Bild-Generierung ohne den Einsatz von Regularisierung vor. Konkret besteht unser vorgeschlagenes Framework aus einem Encoder-Netzwerk und einer neuartigen Sampling-Methode, die das Problem der Überanpassung ohne Regularisierung bewältigen kann. Mit dem vorgeschlagenen Framework können wir ein großes Text-zu-Bild-Generierungsmodell innerhalb einer halben Minute auf einer einzelnen GPU anpassen, wobei nur ein Bild vom Benutzer bereitgestellt wird. Wir zeigen in Experimenten, dass unser vorgeschlagenes Framework bestehende Methoden übertrifft und feinere Details besser bewahrt.