AniClipart: Animazione di Clipart con Priorità da Testo a Video

Abstract

Clipart, una forma di grafica predefinita, offre un modo comodo ed efficiente per illustrare contenuti visivi. I flussi di lavoro tradizionali per convertire immagini clipart statiche in sequenze di movimento sono laboriosi e dispendiosi in termini di tempo, coinvolgendo numerosi passaggi intricati come il rigging, l'animazione chiave e l'interpolazione. I recenti progressi nella generazione di video da testo hanno un grande potenziale nel risolvere questo problema. Tuttavia, l'applicazione diretta di modelli di generazione video da testo spesso fatica a mantenere l'identità visiva delle immagini clipart o a generare movimenti in stile cartone animato, portando a risultati di animazione insoddisfacenti. In questo articolo, introduciamo AniClipart, un sistema che trasforma immagini clipart statiche in sequenze di movimento di alta qualità guidate da conoscenze pregresse di generazione video da testo. Per generare movimenti fluidi e in stile cartone animato, definiamo prima curve di Bézier sui punti chiave dell'immagine clipart come forma di regolarizzazione del movimento. Allineiamo poi le traiettorie di movimento dei punti chiave con il prompt di testo fornito ottimizzando la funzione di perdita Video Score Distillation Sampling (VSDS), che codifica una conoscenza adeguata del movimento naturale all'interno di un modello di diffusione video da testo preaddestrato. Con un algoritmo di deformazione della forma As-Rigid-As-Possible differenziabile, il nostro metodo può essere ottimizzato end-to-end mantenendo la rigidità della deformazione. I risultati sperimentali mostrano che il proposto AniClipart supera costantemente i modelli esistenti di generazione video da immagini, in termini di allineamento testo-video, preservazione dell'identità visiva e coerenza del movimento. Inoltre, dimostriamo la versatilità di AniClipart adattandolo per generare una gamma più ampia di formati di animazione, come l'animazione stratificata, che consente cambiamenti topologici.

English

Clipart, a pre-made graphic art form, offers a convenient and efficient way of illustrating visual content. Traditional workflows to convert static clipart images into motion sequences are laborious and time-consuming, involving numerous intricate steps like rigging, key animation and in-betweening. Recent advancements in text-to-video generation hold great potential in resolving this problem. Nevertheless, direct application of text-to-video generation models often struggles to retain the visual identity of clipart images or generate cartoon-style motions, resulting in unsatisfactory animation outcomes. In this paper, we introduce AniClipart, a system that transforms static clipart images into high-quality motion sequences guided by text-to-video priors. To generate cartoon-style and smooth motion, we first define B\'{e}zier curves over keypoints of the clipart image as a form of motion regularization. We then align the motion trajectories of the keypoints with the provided text prompt by optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes adequate knowledge of natural motion within a pretrained text-to-video diffusion model. With a differentiable As-Rigid-As-Possible shape deformation algorithm, our method can be end-to-end optimized while maintaining deformation rigidity. Experimental results show that the proposed AniClipart consistently outperforms existing image-to-video generation models, in terms of text-video alignment, visual identity preservation, and motion consistency. Furthermore, we showcase the versatility of AniClipart by adapting it to generate a broader array of animation formats, such as layered animation, which allows topological changes.

AniClipart: Animazione di Clipart con Priorità da Testo a Video

AniClipart: Clipart Animation with Text-to-Video Priors

Abstract

Support