AniClipart: Animazione di Clipart con Priorità da Testo a Video
AniClipart: Clipart Animation with Text-to-Video Priors
April 18, 2024
Autori: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI
Abstract
Clipart, una forma di grafica predefinita, offre un modo comodo ed efficiente per illustrare contenuti visivi. I flussi di lavoro tradizionali per convertire immagini clipart statiche in sequenze di movimento sono laboriosi e dispendiosi in termini di tempo, coinvolgendo numerosi passaggi intricati come il rigging, l'animazione chiave e l'interpolazione. I recenti progressi nella generazione di video da testo hanno un grande potenziale nel risolvere questo problema. Tuttavia, l'applicazione diretta di modelli di generazione video da testo spesso fatica a mantenere l'identità visiva delle immagini clipart o a generare movimenti in stile cartone animato, portando a risultati di animazione insoddisfacenti. In questo articolo, introduciamo AniClipart, un sistema che trasforma immagini clipart statiche in sequenze di movimento di alta qualità guidate da conoscenze pregresse di generazione video da testo. Per generare movimenti fluidi e in stile cartone animato, definiamo prima curve di Bézier sui punti chiave dell'immagine clipart come forma di regolarizzazione del movimento. Allineiamo poi le traiettorie di movimento dei punti chiave con il prompt di testo fornito ottimizzando la funzione di perdita Video Score Distillation Sampling (VSDS), che codifica una conoscenza adeguata del movimento naturale all'interno di un modello di diffusione video da testo preaddestrato. Con un algoritmo di deformazione della forma As-Rigid-As-Possible differenziabile, il nostro metodo può essere ottimizzato end-to-end mantenendo la rigidità della deformazione. I risultati sperimentali mostrano che il proposto AniClipart supera costantemente i modelli esistenti di generazione video da immagini, in termini di allineamento testo-video, preservazione dell'identità visiva e coerenza del movimento. Inoltre, dimostriamo la versatilità di AniClipart adattandolo per generare una gamma più ampia di formati di animazione, come l'animazione stratificata, che consente cambiamenti topologici.
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way
of illustrating visual content. Traditional workflows to convert static clipart
images into motion sequences are laborious and time-consuming, involving
numerous intricate steps like rigging, key animation and in-betweening. Recent
advancements in text-to-video generation hold great potential in resolving this
problem. Nevertheless, direct application of text-to-video generation models
often struggles to retain the visual identity of clipart images or generate
cartoon-style motions, resulting in unsatisfactory animation outcomes. In this
paper, we introduce AniClipart, a system that transforms static clipart images
into high-quality motion sequences guided by text-to-video priors. To generate
cartoon-style and smooth motion, we first define B\'{e}zier curves over
keypoints of the clipart image as a form of motion regularization. We then
align the motion trajectories of the keypoints with the provided text prompt by
optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes
adequate knowledge of natural motion within a pretrained text-to-video
diffusion model. With a differentiable As-Rigid-As-Possible shape deformation
algorithm, our method can be end-to-end optimized while maintaining deformation
rigidity. Experimental results show that the proposed AniClipart consistently
outperforms existing image-to-video generation models, in terms of text-video
alignment, visual identity preservation, and motion consistency. Furthermore,
we showcase the versatility of AniClipart by adapting it to generate a broader
array of animation formats, such as layered animation, which allows topological
changes.