PIA : Votre animateur d'images personnalisé via des modules plug-and-play dans les modèles de génération d'images à partir de texte
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
December 21, 2023
Auteurs: Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen
cs.AI
Résumé
Les récents progrès dans les modèles personnalisés de texte-à-image (T2I) ont révolutionné la création de contenu, permettant à des non-experts de générer des images impressionnantes avec des styles uniques. Bien que prometteuse, l'ajout de mouvements réalistes à ces images personnalisées par le texte pose des défis importants pour préserver les styles distincts, les détails de haute fidélité et la contrôlabilité des mouvements par le texte. Dans cet article, nous présentons PIA, un Animateur d'Images Personnalisées qui excelle dans l'alignement avec les images de condition, la contrôlabilité des mouvements par le texte, et la compatibilité avec divers modèles T2I personnalisés sans réglage spécifique. Pour atteindre ces objectifs, PIA s'appuie sur un modèle T2I de base avec des couches d'alignement temporel bien entraînées, permettant la transformation fluide de tout modèle T2I personnalisé en un modèle d'animation d'images. Un composant clé de PIA est l'introduction du module de condition, qui utilise l'image de condition et l'affinité inter-images comme entrée pour transférer les informations d'apparence guidées par l'indice d'affinité pour la synthèse individuelle des images dans l'espace latent. Cette conception atténue les défis liés à l'alignement des images en termes d'apparence et permet une concentration plus forte sur l'alignement avec les indications liées au mouvement.
English
Recent advancements in personalized text-to-image (T2I) models have
revolutionized content creation, empowering non-experts to generate stunning
images with unique styles. While promising, adding realistic motions into these
personalized images by text poses significant challenges in preserving distinct
styles, high-fidelity details, and achieving motion controllability by text. In
this paper, we present PIA, a Personalized Image Animator that excels in
aligning with condition images, achieving motion controllability by text, and
the compatibility with various personalized T2I models without specific tuning.
To achieve these goals, PIA builds upon a base T2I model with well-trained
temporal alignment layers, allowing for the seamless transformation of any
personalized T2I model into an image animation model. A key component of PIA is
the introduction of the condition module, which utilizes the condition frame
and inter-frame affinity as input to transfer appearance information guided by
the affinity hint for individual frame synthesis in the latent space. This
design mitigates the challenges of appearance-related image alignment within
and allows for a stronger focus on aligning with motion-related guidance.