AniClipart: Animação de Clipart com Priors de Texto para Vídeo

Resumo

Clipart, uma forma de arte gráfica pré-fabricada, oferece uma maneira conveniente e eficiente de ilustrar conteúdo visual. Os fluxos de trabalho tradicionais para converter imagens estáticas de clipart em sequências de movimento são trabalhosos e demorados, envolvendo inúmeras etapas intrincadas como rigging, animação chave e interpolação. Avanços recentes na geração de texto para vídeo têm grande potencial para resolver esse problema. No entanto, a aplicação direta de modelos de geração de texto para vídeo frequentemente luta para manter a identidade visual das imagens de clipart ou gerar movimentos no estilo de desenho animado, resultando em animações insatisfatórias. Neste artigo, apresentamos o AniClipart, um sistema que transforma imagens estáticas de clipart em sequências de movimento de alta qualidade guiadas por prioridades de texto para vídeo. Para gerar movimentos suaves e no estilo de desenho animado, primeiro definimos curvas de Bézier sobre os pontos-chave da imagem de clipart como uma forma de regularização de movimento. Em seguida, alinhamos as trajetórias de movimento dos pontos-chave com o prompt de texto fornecido, otimizando a perda de Video Score Distillation Sampling (VSDS), que codifica conhecimento adequado de movimento natural dentro de um modelo de difusão de texto para vídeo pré-treinado. Com um algoritmo diferenciável de deformação de forma As-Rigid-As-Possible, nosso método pode ser otimizado de ponta a ponta enquanto mantém a rigidez da deformação. Resultados experimentais mostram que o AniClipart proposto supera consistentemente os modelos existentes de geração de imagem para vídeo, em termos de alinhamento texto-vídeo, preservação da identidade visual e consistência de movimento. Além disso, demonstramos a versatilidade do AniClipart ao adaptá-lo para gerar uma gama mais ampla de formatos de animação, como animação em camadas, que permite mudanças topológicas.

English

Clipart, a pre-made graphic art form, offers a convenient and efficient way of illustrating visual content. Traditional workflows to convert static clipart images into motion sequences are laborious and time-consuming, involving numerous intricate steps like rigging, key animation and in-betweening. Recent advancements in text-to-video generation hold great potential in resolving this problem. Nevertheless, direct application of text-to-video generation models often struggles to retain the visual identity of clipart images or generate cartoon-style motions, resulting in unsatisfactory animation outcomes. In this paper, we introduce AniClipart, a system that transforms static clipart images into high-quality motion sequences guided by text-to-video priors. To generate cartoon-style and smooth motion, we first define B\'{e}zier curves over keypoints of the clipart image as a form of motion regularization. We then align the motion trajectories of the keypoints with the provided text prompt by optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes adequate knowledge of natural motion within a pretrained text-to-video diffusion model. With a differentiable As-Rigid-As-Possible shape deformation algorithm, our method can be end-to-end optimized while maintaining deformation rigidity. Experimental results show that the proposed AniClipart consistently outperforms existing image-to-video generation models, in terms of text-video alignment, visual identity preservation, and motion consistency. Furthermore, we showcase the versatility of AniClipart by adapting it to generate a broader array of animation formats, such as layered animation, which allows topological changes.

AniClipart: Animação de Clipart com Priors de Texto para Vídeo

AniClipart: Clipart Animation with Text-to-Video Priors

Resumo

Support