PIA : Votre animateur d'images personnalisé via des modules plug-and-play dans les modèles de génération d'images à partir de texte

Résumé

Les récents progrès dans les modèles personnalisés de texte-à-image (T2I) ont révolutionné la création de contenu, permettant à des non-experts de générer des images impressionnantes avec des styles uniques. Bien que prometteuse, l'ajout de mouvements réalistes à ces images personnalisées par le texte pose des défis importants pour préserver les styles distincts, les détails de haute fidélité et la contrôlabilité des mouvements par le texte. Dans cet article, nous présentons PIA, un Animateur d'Images Personnalisées qui excelle dans l'alignement avec les images de condition, la contrôlabilité des mouvements par le texte, et la compatibilité avec divers modèles T2I personnalisés sans réglage spécifique. Pour atteindre ces objectifs, PIA s'appuie sur un modèle T2I de base avec des couches d'alignement temporel bien entraînées, permettant la transformation fluide de tout modèle T2I personnalisé en un modèle d'animation d'images. Un composant clé de PIA est l'introduction du module de condition, qui utilise l'image de condition et l'affinité inter-images comme entrée pour transférer les informations d'apparence guidées par l'indice d'affinité pour la synthèse individuelle des images dans l'espace latent. Cette conception atténue les défis liés à l'alignement des images en termes d'apparence et permet une concentration plus forte sur l'alignement avec les indications liées au mouvement.

English

Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.

PIA : Votre animateur d'images personnalisé via des modules plug-and-play dans les modèles de génération d'images à partir de texte

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

Résumé

Support