ChatPaper.aiChatPaper

ZUCKER: Subjektgesteuerte Videoanpassung auf Null-Shot-Art und Weise

SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

December 13, 2024
Autoren: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI

Zusammenfassung

Wir präsentieren SUGAR, eine Zero-Shot-Methode zur anwendergesteuerten Anpassung von Videos. Anhand eines Eingabebildes ist SUGAR in der Lage, Videos für das im Bild enthaltene Motiv zu generieren und die Generierung mit beliebigen visuellen Attributen wie Stil und Bewegung auszurichten, die durch benutzerdefinierten Text spezifiziert sind. Im Gegensatz zu früheren Methoden, die Feinabstimmung zur Testzeit erfordern oder nicht in der Lage sind, textausgerichtete Videos zu generieren, erzielt SUGAR überlegene Ergebnisse, ohne zusätzliche Kosten zur Testzeit zu benötigen. Um die Zero-Shot-Fähigkeit zu ermöglichen, führen wir eine skalierbare Pipeline ein, um ein synthetisches Datenset zu erstellen, das speziell für anwendergesteuerte Anpassungen konzipiert ist und zu 2,5 Millionen Bild-Video-Text-Tripeln führt. Darüber hinaus schlagen wir mehrere Methoden vor, um unser Modell zu verbessern, einschließlich spezieller Aufmerksamkeitsdesigns, verbesserter Schulungsstrategien und eines verfeinerten Abtastalgorithmus. Umfangreiche Experimente werden durchgeführt. Im Vergleich zu früheren Methoden erzielt SUGAR Spitzenresultate in der Identitätserhaltung, Video-Dynamik und Video-Text-Ausrichtung für anwendergesteuerte Videoanpassungen und zeigt die Wirksamkeit unserer vorgeschlagenen Methode.
English
We present SUGAR, a zero-shot method for subject-driven video customization. Given an input image, SUGAR is capable of generating videos for the subject contained in the image and aligning the generation with arbitrary visual attributes such as style and motion specified by user-input text. Unlike previous methods, which require test-time fine-tuning or fail to generate text-aligned videos, SUGAR achieves superior results without the need for extra cost at test-time. To enable zero-shot capability, we introduce a scalable pipeline to construct synthetic dataset which is specifically designed for subject-driven customization, leading to 2.5 millions of image-video-text triplets. Additionally, we propose several methods to enhance our model, including special attention designs, improved training strategies, and a refined sampling algorithm. Extensive experiments are conducted. Compared to previous methods, SUGAR achieves state-of-the-art results in identity preservation, video dynamics, and video-text alignment for subject-driven video customization, demonstrating the effectiveness of our proposed method.

Summary

AI-Generated Summary

PDF52December 19, 2024