AniClipart: Animación de Clipart con Prioridades de Texto a Video
AniClipart: Clipart Animation with Text-to-Video Priors
April 18, 2024
Autores: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI
Resumen
Clipart, una forma de arte gráfico preelaborado, ofrece una manera conveniente y eficiente de ilustrar contenido visual. Los flujos de trabajo tradicionales para convertir imágenes de clipart estáticas en secuencias de movimiento son laboriosos y consumen mucho tiempo, involucrando numerosos pasos intrincados como el rigging, la animación clave y la interpolación. Los avances recientes en la generación de texto a video tienen un gran potencial para resolver este problema. Sin embargo, la aplicación directa de modelos de generación de texto a video a menudo lucha por mantener la identidad visual de las imágenes de clipart o generar movimientos de estilo cartoon, lo que resulta en resultados de animación insatisfactorios. En este artículo, presentamos AniClipart, un sistema que transforma imágenes de clipart estáticas en secuencias de movimiento de alta calidad guiadas por conocimientos previos de texto a video. Para generar movimientos de estilo cartoon y suaves, primero definimos curvas de Bézier sobre los puntos clave de la imagen de clipart como una forma de regularización del movimiento. Luego, alineamos las trayectorias de movimiento de los puntos clave con el texto proporcionado optimizando la pérdida de Video Score Distillation Sampling (VSDS), que codifica conocimientos adecuados de movimiento natural dentro de un modelo de difusión de texto a video preentrenado. Con un algoritmo de deformación de forma As-Rigid-As-Possible diferenciable, nuestro método puede optimizarse de extremo a extremo mientras mantiene la rigidez de la deformación. Los resultados experimentales muestran que el AniClipart propuesto supera consistentemente a los modelos existentes de generación de imagen a video, en términos de alineación texto-video, preservación de la identidad visual y consistencia del movimiento. Además, demostramos la versatilidad de AniClipart adaptándolo para generar una gama más amplia de formatos de animación, como la animación por capas, que permite cambios topológicos.
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way
of illustrating visual content. Traditional workflows to convert static clipart
images into motion sequences are laborious and time-consuming, involving
numerous intricate steps like rigging, key animation and in-betweening. Recent
advancements in text-to-video generation hold great potential in resolving this
problem. Nevertheless, direct application of text-to-video generation models
often struggles to retain the visual identity of clipart images or generate
cartoon-style motions, resulting in unsatisfactory animation outcomes. In this
paper, we introduce AniClipart, a system that transforms static clipart images
into high-quality motion sequences guided by text-to-video priors. To generate
cartoon-style and smooth motion, we first define B\'{e}zier curves over
keypoints of the clipart image as a form of motion regularization. We then
align the motion trajectories of the keypoints with the provided text prompt by
optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes
adequate knowledge of natural motion within a pretrained text-to-video
diffusion model. With a differentiable As-Rigid-As-Possible shape deformation
algorithm, our method can be end-to-end optimized while maintaining deformation
rigidity. Experimental results show that the proposed AniClipart consistently
outperforms existing image-to-video generation models, in terms of text-video
alignment, visual identity preservation, and motion consistency. Furthermore,
we showcase the versatility of AniClipart by adapting it to generate a broader
array of animation formats, such as layered animation, which allows topological
changes.Summary
AI-Generated Summary