PIA: Jouw Gepersonaliseerde Beeldanimator via Plug-and-Play Modules in Tekst-naar-Beeldmodellen

Samenvatting

Recente ontwikkelingen in gepersonaliseerde tekst-naar-beeld (T2I) modellen hebben een revolutie teweeggebracht in contentcreatie, waardoor niet-experts in staat zijn verbluffende afbeeldingen met unieke stijlen te genereren. Hoewel veelbelovend, brengt het toevoegen van realistische bewegingen aan deze gepersonaliseerde afbeeldingen via tekst aanzienlijke uitdagingen met zich mee, zoals het behouden van onderscheidende stijlen, hoogwaardige details en het bereiken van bewegingsbestuurbaarheid via tekst. In dit artikel presenteren we PIA, een Personalized Image Animator die uitblinkt in het afstemmen op conditieafbeeldingen, het bereiken van bewegingsbestuurbaarheid via tekst, en de compatibiliteit met verschillende gepersonaliseerde T2I-modellen zonder specifieke afstemming. Om deze doelen te bereiken, bouwt PIA voort op een basis T2I-model met goed getrainde tijdelijke uitlijningslagen, waardoor elk gepersonaliseerd T2I-model naadloos kan worden omgezet in een beeldanimatiemodel. Een belangrijk onderdeel van PIA is de introductie van de conditiemodule, die gebruikmaakt van het conditiekader en inter-frame affiniteit als invoer om uiterlijke informatie over te dragen, geleid door de affiniteitshint voor individuele framesynthese in de latente ruimte. Dit ontwerp vermindert de uitdagingen van uiterlijk-gerelateerde beelduitlijning en maakt het mogelijk om zich sterker te richten op het afstemmen met bewegingsgerelateerde begeleiding.

English

Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.

PIA: Jouw Gepersonaliseerde Beeldanimator via Plug-and-Play Modules in Tekst-naar-Beeldmodellen

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

Samenvatting

Support