AniClipart : Animation de Clipart avec des Préalables Texte-vers-Vidéo
AniClipart: Clipart Animation with Text-to-Video Priors
April 18, 2024
Auteurs: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI
Résumé
Clipart, une forme d'art graphique préfabriquée, offre un moyen pratique et efficace d'illustrer du contenu visuel. Les workflows traditionnels pour convertir des images clipart statiques en séquences animées sont laborieux et chronophages, impliquant de nombreuses étapes complexes comme le rigging, l'animation clé et l'interpolation. Les récents progrès dans la génération de texte-à-vidéo présentent un grand potentiel pour résoudre ce problème. Néanmoins, l'application directe des modèles de génération texte-à-vidéo peine souvent à préserver l'identité visuelle des images clipart ou à générer des mouvements de style cartoon, ce qui entraîne des résultats d'animation insatisfaisants. Dans cet article, nous présentons AniClipart, un système qui transforme des images clipart statiques en séquences animées de haute qualité guidées par des a priori texte-à-vidéo. Pour générer des mouvements fluides et de style cartoon, nous définissons d'abord des courbes de Bézier sur les points clés de l'image clipart comme forme de régularisation du mouvement. Nous alignons ensuite les trajectoires de mouvement des points clés avec l'invite textuelle fournie en optimisant la perte de distillation de score vidéo (VSDS), qui encode une connaissance adéquate du mouvement naturel au sein d'un modèle de diffusion texte-à-vidéo préentraîné. Avec un algorithme de déformation de forme As-Rigid-As-Possible différentiable, notre méthode peut être optimisée de bout en bout tout en maintenant la rigidité de la déformation. Les résultats expérimentaux montrent que le système AniClipart proposé surpasse systématiquement les modèles existants de génération image-à-vidéo en termes d'alignement texte-vidéo, de préservation de l'identité visuelle et de cohérence du mouvement. De plus, nous démontrons la polyvalence d'AniClipart en l'adaptant pour générer une gamme plus large de formats d'animation, tels que l'animation en couches, qui permet des changements topologiques.
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way
of illustrating visual content. Traditional workflows to convert static clipart
images into motion sequences are laborious and time-consuming, involving
numerous intricate steps like rigging, key animation and in-betweening. Recent
advancements in text-to-video generation hold great potential in resolving this
problem. Nevertheless, direct application of text-to-video generation models
often struggles to retain the visual identity of clipart images or generate
cartoon-style motions, resulting in unsatisfactory animation outcomes. In this
paper, we introduce AniClipart, a system that transforms static clipart images
into high-quality motion sequences guided by text-to-video priors. To generate
cartoon-style and smooth motion, we first define B\'{e}zier curves over
keypoints of the clipart image as a form of motion regularization. We then
align the motion trajectories of the keypoints with the provided text prompt by
optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes
adequate knowledge of natural motion within a pretrained text-to-video
diffusion model. With a differentiable As-Rigid-As-Possible shape deformation
algorithm, our method can be end-to-end optimized while maintaining deformation
rigidity. Experimental results show that the proposed AniClipart consistently
outperforms existing image-to-video generation models, in terms of text-video
alignment, visual identity preservation, and motion consistency. Furthermore,
we showcase the versatility of AniClipart by adapting it to generate a broader
array of animation formats, such as layered animation, which allows topological
changes.Summary
AI-Generated Summary