PIA: Tu Animador de Imágenes Personalizado mediante Módulos Plug-and-Play en Modelos de Texto a Imagen
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
December 21, 2023
Autores: Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen
cs.AI
Resumen
Los recientes avances en los modelos personalizados de texto a imagen (T2I) han revolucionado la creación de contenido, permitiendo que no expertos generen imágenes impresionantes con estilos únicos. Aunque prometedor, añadir movimientos realistas a estas imágenes personalizadas mediante texto presenta desafíos significativos para preservar estilos distintivos, detalles de alta fidelidad y lograr controlabilidad del movimiento mediante texto. En este artículo, presentamos PIA, un Animador de Imágenes Personalizado que destaca en la alineación con imágenes de condición, logrando controlabilidad del movimiento mediante texto y compatibilidad con varios modelos personalizados de T2I sin ajustes específicos. Para alcanzar estos objetivos, PIA se basa en un modelo base de T2I con capas de alineación temporal bien entrenadas, permitiendo la transformación fluida de cualquier modelo personalizado de T2I en un modelo de animación de imágenes. Un componente clave de PIA es la introducción del módulo de condición, que utiliza el marco de condición y la afinidad entre marcos como entrada para transferir información de apariencia guiada por la pista de afinidad para la síntesis de marcos individuales en el espacio latente. Este diseño mitiga los desafíos de la alineación de imágenes relacionada con la apariencia y permite un enfoque más fuerte en la alineación con la guía relacionada con el movimiento.
English
Recent advancements in personalized text-to-image (T2I) models have
revolutionized content creation, empowering non-experts to generate stunning
images with unique styles. While promising, adding realistic motions into these
personalized images by text poses significant challenges in preserving distinct
styles, high-fidelity details, and achieving motion controllability by text. In
this paper, we present PIA, a Personalized Image Animator that excels in
aligning with condition images, achieving motion controllability by text, and
the compatibility with various personalized T2I models without specific tuning.
To achieve these goals, PIA builds upon a base T2I model with well-trained
temporal alignment layers, allowing for the seamless transformation of any
personalized T2I model into an image animation model. A key component of PIA is
the introduction of the condition module, which utilizes the condition frame
and inter-frame affinity as input to transfer appearance information guided by
the affinity hint for individual frame synthesis in the latent space. This
design mitigates the challenges of appearance-related image alignment within
and allows for a stronger focus on aligning with motion-related guidance.