ChatPaper.aiChatPaper

Multi-onderwerp Open-set Personalisatie in Video Generatie

Multi-subject Open-set Personalization in Video Generation

January 10, 2025
Auteurs: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

Samenvatting

Video personalisatiemethoden stellen ons in staat om video's te synthetiseren met specifieke concepten zoals mensen, huisdieren en plaatsen. Echter, bestaande methoden richten zich vaak op beperkte domeinen, vereisen tijdrovende optimalisatie per onderwerp, of ondersteunen slechts één onderwerp. Wij presenteren Video Alchemist - een videomodel met ingebouwde multi-onderwerp, open-set personalisatiemogelijkheden voor zowel voorgrondobjecten als achtergrond, waardoor de noodzaak voor tijdrovende optimalisatie bij testtijd wordt geëlimineerd. Ons model is gebaseerd op een nieuw Diffusion Transformer-module die elk conditioneel referentiebeeld en de bijbehorende tekstprompt op onderwerpniveau fuseert met cross-attentionlagen. Het ontwikkelen van zo'n groot model brengt twee belangrijke uitdagingen met zich mee: dataset en evaluatie. Ten eerste, aangezien gekoppelde datasets van referentiebeelden en video's extreem moeilijk te verzamelen zijn, monsteren we geselecteerde videoframes als referentiebeelden en synthetiseren een fragment van de doelvideo. Echter, terwijl modellen trainingvideo's gemakkelijk kunnen denoiseren met referentieframes, falen ze in generalisatie naar nieuwe contexten. Om dit probleem te verlichten, ontwerpen we een nieuw automatisch gegevensconstructieproces met uitgebreide beeldaugmentaties. Ten tweede is het evalueren van open-set video personalisatie op zichzelf een uitdaging. Om dit aan te pakken, introduceren we een personalisatiebenchmark die zich richt op nauwkeurige onderwerpfideliteit en diverse personalisatiescenario's ondersteunt. Tot slot tonen onze uitgebreide experimenten aan dat onze methode aanzienlijk beter presteert dan bestaande personalisatiemethoden in zowel kwantitatieve als kwalitatieve evaluaties.
English
Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist - a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.

Summary

AI-Generated Summary

PDF142January 13, 2025