AniClipart: Clipart-animatie met tekst-naar-video prioriteiten
AniClipart: Clipart Animation with Text-to-Video Priors
April 18, 2024
Auteurs: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI
Samenvatting
Clipart, een vooraf gemaakte vorm van grafische kunst, biedt een handige en efficiënte manier om visuele inhoud te illustreren. Traditionele workflows om statische clipart-afbeeldingen om te zetten in bewegende sequenties zijn arbeidsintensief en tijdrovend, waarbij talrijke ingewikkelde stappen zoals rigging, sleutelanimaties en tussentekeningen betrokken zijn. Recente vooruitgang in tekst-naar-video-generatie heeft groot potentieel om dit probleem op te lossen. Toch worstelt de directe toepassing van tekst-naar-video-generatiemodellen vaak met het behouden van de visuele identiteit van clipart-afbeeldingen of het genereren van cartoonachtige bewegingen, wat resulteert in onbevredigende animatieresultaten. In dit artikel introduceren we AniClipart, een systeem dat statische clipart-afbeeldingen omzet in hoogwaardige bewegingssequenties onder begeleiding van tekst-naar-video-priors. Om cartoonachtige en vloeiende beweging te genereren, definiëren we eerst Bézier-curven over de keypoints van de clipart-afbeelding als een vorm van bewegingsregularisatie. Vervolgens aligneren we de bewegingsbanen van de keypoints met de opgegeven tekstprompt door het optimaliseren van het Video Score Distillation Sampling (VSDS)-verlies, dat voldoende kennis van natuurlijke beweging codeert binnen een voorgetraind tekst-naar-video-diffusiemodel. Met een differentieerbaar As-Rigid-As-Possible vormvervormingsalgoritme kan onze methode end-to-end worden geoptimaliseerd terwijl de vervormingsrigiditeit behouden blijft. Experimentele resultaten tonen aan dat de voorgestelde AniClipart consistent beter presteert dan bestaande beeld-naar-video-generatiemodellen, wat betreft tekst-video-alignering, behoud van visuele identiteit en bewegingsconsistentie. Bovendien demonstreren we de veelzijdigheid van AniClipart door het aan te passen voor het genereren van een breder scala aan animatieformaten, zoals gelaagde animatie, wat topologische veranderingen mogelijk maakt.
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way
of illustrating visual content. Traditional workflows to convert static clipart
images into motion sequences are laborious and time-consuming, involving
numerous intricate steps like rigging, key animation and in-betweening. Recent
advancements in text-to-video generation hold great potential in resolving this
problem. Nevertheless, direct application of text-to-video generation models
often struggles to retain the visual identity of clipart images or generate
cartoon-style motions, resulting in unsatisfactory animation outcomes. In this
paper, we introduce AniClipart, a system that transforms static clipart images
into high-quality motion sequences guided by text-to-video priors. To generate
cartoon-style and smooth motion, we first define B\'{e}zier curves over
keypoints of the clipart image as a form of motion regularization. We then
align the motion trajectories of the keypoints with the provided text prompt by
optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes
adequate knowledge of natural motion within a pretrained text-to-video
diffusion model. With a differentiable As-Rigid-As-Possible shape deformation
algorithm, our method can be end-to-end optimized while maintaining deformation
rigidity. Experimental results show that the proposed AniClipart consistently
outperforms existing image-to-video generation models, in terms of text-video
alignment, visual identity preservation, and motion consistency. Furthermore,
we showcase the versatility of AniClipart by adapting it to generate a broader
array of animation formats, such as layered animation, which allows topological
changes.