PIA: Tu Animador de Imágenes Personalizado mediante Módulos Plug-and-Play en Modelos de Texto a Imagen

Resumen

Los recientes avances en los modelos personalizados de texto a imagen (T2I) han revolucionado la creación de contenido, permitiendo que no expertos generen imágenes impresionantes con estilos únicos. Aunque prometedor, añadir movimientos realistas a estas imágenes personalizadas mediante texto presenta desafíos significativos para preservar estilos distintivos, detalles de alta fidelidad y lograr controlabilidad del movimiento mediante texto. En este artículo, presentamos PIA, un Animador de Imágenes Personalizado que destaca en la alineación con imágenes de condición, logrando controlabilidad del movimiento mediante texto y compatibilidad con varios modelos personalizados de T2I sin ajustes específicos. Para alcanzar estos objetivos, PIA se basa en un modelo base de T2I con capas de alineación temporal bien entrenadas, permitiendo la transformación fluida de cualquier modelo personalizado de T2I en un modelo de animación de imágenes. Un componente clave de PIA es la introducción del módulo de condición, que utiliza el marco de condición y la afinidad entre marcos como entrada para transferir información de apariencia guiada por la pista de afinidad para la síntesis de marcos individuales en el espacio latente. Este diseño mitiga los desafíos de la alineación de imágenes relacionada con la apariencia y permite un enfoque más fuerte en la alineación con la guía relacionada con el movimiento.

English

Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.

PIA: Tu Animador de Imágenes Personalizado mediante Módulos Plug-and-Play en Modelos de Texto a Imagen

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

Resumen

Support