ChatPaper.aiChatPaper

PIA: Ihr personalisierter Bildanimator über Plug-and-Play-Module in Text-zu-Bild-Modellen

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

December 21, 2023
Autoren: Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen
cs.AI

Zusammenfassung

Jüngste Fortschritte in personalisierten Text-zu-Bild (T2I)-Modellen haben die Inhaltserstellung revolutioniert und es Laien ermöglicht, beeindruckende Bilder mit einzigartigen Stilen zu generieren. Obwohl vielversprechend, stellt das Hinzufügen realistischer Bewegungen zu diesen personalisierten Bildern durch Text erhebliche Herausforderungen dar, insbesondere bei der Bewahrung des individuellen Stils, der hochauflösenden Details und der Erzielung von Bewegungssteuerbarkeit durch Text. In diesem Artikel stellen wir PIA vor, einen Personalisierten Bildanimator, der sich durch die präzise Ausrichtung an Bedingungsbildern, die Bewegungssteuerbarkeit durch Text und die Kompatibilität mit verschiedenen personalisierten T2I-Modellen ohne spezifische Anpassung auszeichnet. Um diese Ziele zu erreichen, baut PIA auf einem Basis-T2I-Modell mit gut trainierten temporalen Ausrichtungsschichten auf, wodurch nahtlos jedes personalisierte T2I-Modell in ein Bildanimationsmodell transformiert werden kann. Ein Schlüsselelement von PIA ist die Einführung des Bedingungsmoduls, das den Bedingungsrahmen und die Inter-Frame-Affinität als Eingabe nutzt, um Erscheinungsinformationen zu übertragen, die durch den Affinitätshinweis für die Synthese einzelner Frames im latenten Raum geleitet werden. Dieser Ansatz mildert die Herausforderungen der erscheinungsbezogenen Bildausrichtung und ermöglicht eine stärkere Konzentration auf die Ausrichtung an bewegungsbezogenen Anweisungen.
English
Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.
PDF201December 15, 2024