AniClipart: Clipart-Animation mit Text-zu-Video-Vorkenntnissen
AniClipart: Clipart Animation with Text-to-Video Priors
April 18, 2024
papers.authors: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI
papers.abstract
Clipart, eine vorgefertigte grafische Kunstform, bietet einen bequemen und effizienten Weg, um visuelle Inhalte zu illustrieren. Traditionelle Workflows zur Umwandlung statischer Clipart-Bilder in Bewegungssequenzen sind mühsam und zeitaufwendig, da sie zahlreiche komplexe Schritte wie Rigging, Keyframe-Animation und Zwischenbildberechnung umfassen. Die jüngsten Fortschritte in der Text-zu-Video-Generierung haben großes Potenzial, um dieses Problem zu lösen. Dennoch haben direkte Anwendungen von Text-zu-Video-Generierungsmodellen oft Schwierigkeiten, die visuelle Identität von Clipart-Bildern beizubehalten oder Cartoon-artige Bewegungen zu erzeugen, was zu unbefriedigenden Animationsresultaten führt. In diesem Paper stellen wir AniClipart vor, ein System, das statische Clipart-Bilder in hochwertige Bewegungssequenzen umwandelt, die von Text-zu-Video-Prioritäten geleitet werden. Um Cartoon-artige und flüssige Bewegungen zu erzeugen, definieren wir zunächst Bézier-Kurven über den Schlüsselpunkten des Clipart-Bildes als Form der Bewegungsregulierung. Anschließend bringen wir die Bewegungsbahnen der Schlüsselpunkte mit dem bereitgestellten Textprompt in Einklang, indem wir den Video Score Distillation Sampling (VSDS)-Verlust optimieren, der angemessenes Wissen über natürliche Bewegungen in einem vorab trainierten Text-zu-Video-Diffusionsmodell kodiert. Mit einem differenzierbaren As-Rigid-As-Possible-Formdeformationsalgorithmus kann unsere Methode end-to-end optimiert werden, während die Deformationssteifigkeit erhalten bleibt. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene AniClipart konsistent bessere Leistungen als bestehende Bild-zu-Video-Generierungsmodelle in Bezug auf Text-Video-Abstimmung, Erhaltung der visuellen Identität und Bewegungskonsistenz erzielt. Darüber hinaus zeigen wir die Vielseitigkeit von AniClipart, indem wir es anpassen, um eine breitere Palette von Animationsformaten zu generieren, wie z.B. Schichtanimation, die topologische Veränderungen ermöglicht.
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way
of illustrating visual content. Traditional workflows to convert static clipart
images into motion sequences are laborious and time-consuming, involving
numerous intricate steps like rigging, key animation and in-betweening. Recent
advancements in text-to-video generation hold great potential in resolving this
problem. Nevertheless, direct application of text-to-video generation models
often struggles to retain the visual identity of clipart images or generate
cartoon-style motions, resulting in unsatisfactory animation outcomes. In this
paper, we introduce AniClipart, a system that transforms static clipart images
into high-quality motion sequences guided by text-to-video priors. To generate
cartoon-style and smooth motion, we first define B\'{e}zier curves over
keypoints of the clipart image as a form of motion regularization. We then
align the motion trajectories of the keypoints with the provided text prompt by
optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes
adequate knowledge of natural motion within a pretrained text-to-video
diffusion model. With a differentiable As-Rigid-As-Possible shape deformation
algorithm, our method can be end-to-end optimized while maintaining deformation
rigidity. Experimental results show that the proposed AniClipart consistently
outperforms existing image-to-video generation models, in terms of text-video
alignment, visual identity preservation, and motion consistency. Furthermore,
we showcase the versatility of AniClipart by adapting it to generate a broader
array of animation formats, such as layered animation, which allows topological
changes.