Personnalisation multi-sujet en open-set dans la génération de vidéos
Multi-subject Open-set Personalization in Video Generation
January 10, 2025
Auteurs: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
Résumé
Les méthodes de personnalisation vidéo nous permettent de synthétiser des vidéos avec des concepts spécifiques tels que des personnes, des animaux de compagnie et des lieux. Cependant, les méthodes existantes se concentrent souvent sur des domaines limités, nécessitent une optimisation fastidieuse par sujet, ou ne prennent en charge qu'un seul sujet. Nous présentons Video Alchemist - un modèle vidéo doté de capacités de personnalisation multi-sujets en open-set intégrées pour à la fois les objets en premier plan et l'arrière-plan, éliminant ainsi le besoin d'une optimisation fastidieuse au moment du test. Notre modèle repose sur un nouveau module de Transformer de Diffusion qui fusionne chaque image de référence conditionnelle et son prompt textuel de niveau sujet correspondant avec des couches d'attention croisée. Le développement d'un tel modèle de grande taille présente deux principaux défis : l'ensemble de données et l'évaluation. Tout d'abord, étant donné que les ensembles de données appariés d'images de référence et de vidéos sont extrêmement difficiles à collecter, nous échantillonnons des images vidéo sélectionnées en tant qu'images de référence et synthétisons un extrait de la vidéo cible. Cependant, bien que les modèles puissent facilement débruiter les vidéos d'entraînement à partir de trames de référence, ils échouent à généraliser à de nouveaux contextes. Pour atténuer ce problème, nous concevons un nouveau pipeline de construction de données automatique avec des augmentations d'image étendues. Deuxièmement, évaluer la personnalisation vidéo en open-set est un défi en soi. Pour y remédier, nous introduisons un banc d'essai de personnalisation qui se concentre sur la fidélité de sujet précise et prend en charge divers scénarios de personnalisation. Enfin, nos expériences approfondies montrent que notre méthode surpasse significativement les méthodes de personnalisation existantes tant en termes d'évaluations quantitatives que qualitatives.
English
Video personalization methods allow us to synthesize videos with specific
concepts such as people, pets, and places. However, existing methods often
focus on limited domains, require time-consuming optimization per subject, or
support only a single subject. We present Video Alchemist - a video model
with built-in multi-subject, open-set personalization capabilities for both
foreground objects and background, eliminating the need for time-consuming
test-time optimization. Our model is built on a new Diffusion Transformer
module that fuses each conditional reference image and its corresponding
subject-level text prompt with cross-attention layers. Developing such a large
model presents two main challenges: dataset and evaluation. First, as paired
datasets of reference images and videos are extremely hard to collect, we
sample selected video frames as reference images and synthesize a clip of the
target video. However, while models can easily denoise training videos given
reference frames, they fail to generalize to new contexts. To mitigate this
issue, we design a new automatic data construction pipeline with extensive
image augmentations. Second, evaluating open-set video personalization is a
challenge in itself. To address this, we introduce a personalization benchmark
that focuses on accurate subject fidelity and supports diverse personalization
scenarios. Finally, our extensive experiments show that our method
significantly outperforms existing personalization methods in both quantitative
and qualitative evaluations.Summary
AI-Generated Summary