PIA: Jouw Gepersonaliseerde Beeldanimator via Plug-and-Play Modules in Tekst-naar-Beeldmodellen
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
December 21, 2023
Auteurs: Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen
cs.AI
Samenvatting
Recente ontwikkelingen in gepersonaliseerde tekst-naar-beeld (T2I) modellen hebben een revolutie teweeggebracht in contentcreatie, waardoor niet-experts in staat zijn verbluffende afbeeldingen met unieke stijlen te genereren. Hoewel veelbelovend, brengt het toevoegen van realistische bewegingen aan deze gepersonaliseerde afbeeldingen via tekst aanzienlijke uitdagingen met zich mee, zoals het behouden van onderscheidende stijlen, hoogwaardige details en het bereiken van bewegingsbestuurbaarheid via tekst. In dit artikel presenteren we PIA, een Personalized Image Animator die uitblinkt in het afstemmen op conditieafbeeldingen, het bereiken van bewegingsbestuurbaarheid via tekst, en de compatibiliteit met verschillende gepersonaliseerde T2I-modellen zonder specifieke afstemming. Om deze doelen te bereiken, bouwt PIA voort op een basis T2I-model met goed getrainde tijdelijke uitlijningslagen, waardoor elk gepersonaliseerd T2I-model naadloos kan worden omgezet in een beeldanimatiemodel. Een belangrijk onderdeel van PIA is de introductie van de conditiemodule, die gebruikmaakt van het conditiekader en inter-frame affiniteit als invoer om uiterlijke informatie over te dragen, geleid door de affiniteitshint voor individuele framesynthese in de latente ruimte. Dit ontwerp vermindert de uitdagingen van uiterlijk-gerelateerde beelduitlijning en maakt het mogelijk om zich sterker te richten op het afstemmen met bewegingsgerelateerde begeleiding.
English
Recent advancements in personalized text-to-image (T2I) models have
revolutionized content creation, empowering non-experts to generate stunning
images with unique styles. While promising, adding realistic motions into these
personalized images by text poses significant challenges in preserving distinct
styles, high-fidelity details, and achieving motion controllability by text. In
this paper, we present PIA, a Personalized Image Animator that excels in
aligning with condition images, achieving motion controllability by text, and
the compatibility with various personalized T2I models without specific tuning.
To achieve these goals, PIA builds upon a base T2I model with well-trained
temporal alignment layers, allowing for the seamless transformation of any
personalized T2I model into an image animation model. A key component of PIA is
the introduction of the condition module, which utilizes the condition frame
and inter-frame affinity as input to transfer appearance information guided by
the affinity hint for individual frame synthesis in the latent space. This
design mitigates the challenges of appearance-related image alignment within
and allows for a stronger focus on aligning with motion-related guidance.