AniClipart: Animação de Clipart com Priors de Texto para Vídeo
AniClipart: Clipart Animation with Text-to-Video Priors
April 18, 2024
Autores: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI
Resumo
Clipart, uma forma de arte gráfica pré-fabricada, oferece uma maneira conveniente e eficiente de ilustrar conteúdo visual. Os fluxos de trabalho tradicionais para converter imagens estáticas de clipart em sequências de movimento são trabalhosos e demorados, envolvendo inúmeras etapas intrincadas como rigging, animação chave e interpolação. Avanços recentes na geração de texto para vídeo têm grande potencial para resolver esse problema. No entanto, a aplicação direta de modelos de geração de texto para vídeo frequentemente luta para manter a identidade visual das imagens de clipart ou gerar movimentos no estilo de desenho animado, resultando em animações insatisfatórias. Neste artigo, apresentamos o AniClipart, um sistema que transforma imagens estáticas de clipart em sequências de movimento de alta qualidade guiadas por prioridades de texto para vídeo. Para gerar movimentos suaves e no estilo de desenho animado, primeiro definimos curvas de Bézier sobre os pontos-chave da imagem de clipart como uma forma de regularização de movimento. Em seguida, alinhamos as trajetórias de movimento dos pontos-chave com o prompt de texto fornecido, otimizando a perda de Video Score Distillation Sampling (VSDS), que codifica conhecimento adequado de movimento natural dentro de um modelo de difusão de texto para vídeo pré-treinado. Com um algoritmo diferenciável de deformação de forma As-Rigid-As-Possible, nosso método pode ser otimizado de ponta a ponta enquanto mantém a rigidez da deformação. Resultados experimentais mostram que o AniClipart proposto supera consistentemente os modelos existentes de geração de imagem para vídeo, em termos de alinhamento texto-vídeo, preservação da identidade visual e consistência de movimento. Além disso, demonstramos a versatilidade do AniClipart ao adaptá-lo para gerar uma gama mais ampla de formatos de animação, como animação em camadas, que permite mudanças topológicas.
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way
of illustrating visual content. Traditional workflows to convert static clipart
images into motion sequences are laborious and time-consuming, involving
numerous intricate steps like rigging, key animation and in-betweening. Recent
advancements in text-to-video generation hold great potential in resolving this
problem. Nevertheless, direct application of text-to-video generation models
often struggles to retain the visual identity of clipart images or generate
cartoon-style motions, resulting in unsatisfactory animation outcomes. In this
paper, we introduce AniClipart, a system that transforms static clipart images
into high-quality motion sequences guided by text-to-video priors. To generate
cartoon-style and smooth motion, we first define B\'{e}zier curves over
keypoints of the clipart image as a form of motion regularization. We then
align the motion trajectories of the keypoints with the provided text prompt by
optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes
adequate knowledge of natural motion within a pretrained text-to-video
diffusion model. With a differentiable As-Rigid-As-Possible shape deformation
algorithm, our method can be end-to-end optimized while maintaining deformation
rigidity. Experimental results show that the proposed AniClipart consistently
outperforms existing image-to-video generation models, in terms of text-video
alignment, visual identity preservation, and motion consistency. Furthermore,
we showcase the versatility of AniClipart by adapting it to generate a broader
array of animation formats, such as layered animation, which allows topological
changes.