ChatPaper.aiChatPaper

SUGAR: Onderwerpgestuurde Videoaanpassing op een Zero-Shot Manier

SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

December 13, 2024
Auteurs: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI

Samenvatting

We presenteren SUGAR, een zero-shot methode voor op onderwerp gedreven videoaanpassing. Gegeven een invoerafbeelding is SUGAR in staat om video's te genereren voor het onderwerp dat in de afbeelding is opgenomen en om de generatie af te stemmen op willekeurige visuele kenmerken zoals stijl en beweging die zijn gespecificeerd door gebruikersinvoertekst. In tegenstelling tot eerdere methoden, die fijnafstemming op testtijd vereisen of er niet in slagen om tekst-uitgelijnde video's te genereren, behaalt SUGAR superieure resultaten zonder de noodzaak van extra kosten op testtijd. Om zero-shot mogelijk te maken, introduceren we een schaalbare pipeline om een synthetische dataset te construeren die specifiek is ontworpen voor op onderwerp gedreven aanpassing, resulterend in 2,5 miljoen afbeelding-video-tekst triplets. Daarnaast stellen we verschillende methoden voor om ons model te verbeteren, waaronder speciale aandachtsontwerpen, verbeterde trainingsstrategieën en een verfijnd bemonsteringsalgoritme. Uitgebreide experimenten worden uitgevoerd. Vergeleken met eerdere methoden behaalt SUGAR state-of-the-art resultaten op het gebied van identiteitsbehoud, videodynamiek en video-tekstuitlijning voor op onderwerp gedreven videoaanpassing, waarbij de effectiviteit van onze voorgestelde methode wordt aangetoond.
English
We present SUGAR, a zero-shot method for subject-driven video customization. Given an input image, SUGAR is capable of generating videos for the subject contained in the image and aligning the generation with arbitrary visual attributes such as style and motion specified by user-input text. Unlike previous methods, which require test-time fine-tuning or fail to generate text-aligned videos, SUGAR achieves superior results without the need for extra cost at test-time. To enable zero-shot capability, we introduce a scalable pipeline to construct synthetic dataset which is specifically designed for subject-driven customization, leading to 2.5 millions of image-video-text triplets. Additionally, we propose several methods to enhance our model, including special attention designs, improved training strategies, and a refined sampling algorithm. Extensive experiments are conducted. Compared to previous methods, SUGAR achieves state-of-the-art results in identity preservation, video dynamics, and video-text alignment for subject-driven video customization, demonstrating the effectiveness of our proposed method.
PDF52December 14, 2025