ChatPaper.aiChatPaper

Personnalisation multi-sujet en open-set dans la génération de vidéos

Multi-subject Open-set Personalization in Video Generation

January 10, 2025
Auteurs: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

Résumé

Les méthodes de personnalisation vidéo nous permettent de synthétiser des vidéos avec des concepts spécifiques tels que des personnes, des animaux de compagnie et des lieux. Cependant, les méthodes existantes se concentrent souvent sur des domaines limités, nécessitent une optimisation fastidieuse par sujet, ou ne prennent en charge qu'un seul sujet. Nous présentons Video Alchemist - un modèle vidéo doté de capacités de personnalisation multi-sujets en open-set intégrées pour à la fois les objets en premier plan et l'arrière-plan, éliminant ainsi le besoin d'une optimisation fastidieuse au moment du test. Notre modèle repose sur un nouveau module de Transformer de Diffusion qui fusionne chaque image de référence conditionnelle et son prompt textuel de niveau sujet correspondant avec des couches d'attention croisée. Le développement d'un tel modèle de grande taille présente deux principaux défis : l'ensemble de données et l'évaluation. Tout d'abord, étant donné que les ensembles de données appariés d'images de référence et de vidéos sont extrêmement difficiles à collecter, nous échantillonnons des images vidéo sélectionnées en tant qu'images de référence et synthétisons un extrait de la vidéo cible. Cependant, bien que les modèles puissent facilement débruiter les vidéos d'entraînement à partir de trames de référence, ils échouent à généraliser à de nouveaux contextes. Pour atténuer ce problème, nous concevons un nouveau pipeline de construction de données automatique avec des augmentations d'image étendues. Deuxièmement, évaluer la personnalisation vidéo en open-set est un défi en soi. Pour y remédier, nous introduisons un banc d'essai de personnalisation qui se concentre sur la fidélité de sujet précise et prend en charge divers scénarios de personnalisation. Enfin, nos expériences approfondies montrent que notre méthode surpasse significativement les méthodes de personnalisation existantes tant en termes d'évaluations quantitatives que qualitatives.
English
Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist - a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.

Summary

AI-Generated Summary

PDF142January 13, 2025