PIA: Ihr personalisierter Bildanimator über Plug-and-Play-Module in Text-zu-Bild-Modellen
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
December 21, 2023
Autoren: Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen
cs.AI
Zusammenfassung
Jüngste Fortschritte in personalisierten Text-zu-Bild (T2I)-Modellen haben die Inhaltserstellung revolutioniert und es Laien ermöglicht, beeindruckende Bilder mit einzigartigen Stilen zu generieren. Obwohl vielversprechend, stellt das Hinzufügen realistischer Bewegungen zu diesen personalisierten Bildern durch Text erhebliche Herausforderungen dar, insbesondere bei der Bewahrung des individuellen Stils, der hochauflösenden Details und der Erzielung von Bewegungssteuerbarkeit durch Text. In diesem Artikel stellen wir PIA vor, einen Personalisierten Bildanimator, der sich durch die präzise Ausrichtung an Bedingungsbildern, die Bewegungssteuerbarkeit durch Text und die Kompatibilität mit verschiedenen personalisierten T2I-Modellen ohne spezifische Anpassung auszeichnet. Um diese Ziele zu erreichen, baut PIA auf einem Basis-T2I-Modell mit gut trainierten temporalen Ausrichtungsschichten auf, wodurch nahtlos jedes personalisierte T2I-Modell in ein Bildanimationsmodell transformiert werden kann. Ein Schlüsselelement von PIA ist die Einführung des Bedingungsmoduls, das den Bedingungsrahmen und die Inter-Frame-Affinität als Eingabe nutzt, um Erscheinungsinformationen zu übertragen, die durch den Affinitätshinweis für die Synthese einzelner Frames im latenten Raum geleitet werden. Dieser Ansatz mildert die Herausforderungen der erscheinungsbezogenen Bildausrichtung und ermöglicht eine stärkere Konzentration auf die Ausrichtung an bewegungsbezogenen Anweisungen.
English
Recent advancements in personalized text-to-image (T2I) models have
revolutionized content creation, empowering non-experts to generate stunning
images with unique styles. While promising, adding realistic motions into these
personalized images by text poses significant challenges in preserving distinct
styles, high-fidelity details, and achieving motion controllability by text. In
this paper, we present PIA, a Personalized Image Animator that excels in
aligning with condition images, achieving motion controllability by text, and
the compatibility with various personalized T2I models without specific tuning.
To achieve these goals, PIA builds upon a base T2I model with well-trained
temporal alignment layers, allowing for the seamless transformation of any
personalized T2I model into an image animation model. A key component of PIA is
the introduction of the condition module, which utilizes the condition frame
and inter-frame affinity as input to transfer appearance information guided by
the affinity hint for individual frame synthesis in the latent space. This
design mitigates the challenges of appearance-related image alignment within
and allows for a stronger focus on aligning with motion-related guidance.