ChatPaper.aiChatPaper

SUGAR : Personnalisation vidéo basée sur le sujet de manière sans intervention

SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

December 13, 2024
Auteurs: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI

Résumé

Nous présentons SUGAR, une méthode de personnalisation vidéo pilotée par le sujet sans nécessiter d'apprentissage spécifique à l'exécution. À partir d'une image d'entrée, SUGAR est capable de générer des vidéos pour le sujet contenu dans l'image et d'aligner la génération avec des attributs visuels arbitraires tels que le style et le mouvement spécifiés par un texte saisi par l'utilisateur. Contrairement aux méthodes précédentes, qui nécessitent un ajustement fin à l'exécution ou échouent à générer des vidéos alignées sur le texte, SUGAR obtient des résultats supérieurs sans coût supplémentaire à l'exécution. Pour permettre la capacité de zéro-shot, nous introduisons un pipeline évolutif pour construire un ensemble de données synthétiques spécifiquement conçu pour la personnalisation pilotée par le sujet, conduisant à 2,5 millions de triplets image-vidéo-texte. De plus, nous proposons plusieurs méthodes pour améliorer notre modèle, y compris des conceptions d'attention spéciales, des stratégies d'entraînement améliorées et un algorithme d'échantillonnage affiné. Des expériences approfondies sont menées. Comparé aux méthodes précédentes, SUGAR atteint des résultats de pointe en préservation de l'identité, en dynamique vidéo et en alignement vidéo-texte pour la personnalisation vidéo pilotée par le sujet, démontrant l'efficacité de notre méthode proposée.
English
We present SUGAR, a zero-shot method for subject-driven video customization. Given an input image, SUGAR is capable of generating videos for the subject contained in the image and aligning the generation with arbitrary visual attributes such as style and motion specified by user-input text. Unlike previous methods, which require test-time fine-tuning or fail to generate text-aligned videos, SUGAR achieves superior results without the need for extra cost at test-time. To enable zero-shot capability, we introduce a scalable pipeline to construct synthetic dataset which is specifically designed for subject-driven customization, leading to 2.5 millions of image-video-text triplets. Additionally, we propose several methods to enhance our model, including special attention designs, improved training strategies, and a refined sampling algorithm. Extensive experiments are conducted. Compared to previous methods, SUGAR achieves state-of-the-art results in identity preservation, video dynamics, and video-text alignment for subject-driven video customization, demonstrating the effectiveness of our proposed method.

Summary

AI-Generated Summary

PDF52December 19, 2024