AniClipart: Анимация клипартов с приоритетами текста к видео
AniClipart: Clipart Animation with Text-to-Video Priors
April 18, 2024
Авторы: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI
Аннотация
Clipart, готовая графическая форма искусства, предлагает удобный и эффективный способ иллюстрации визуального контента. Традиционные рабочие процессы по преобразованию статических изображений clipart в последовательности движения являются трудоемкими и времязатратными, включая множество сложных этапов, таких как оборудование, ключевая анимация и создание промежуточных кадров. Недавние достижения в области генерации текста в видео имеют большой потенциал для решения этой проблемы. Тем не менее, прямое применение моделей генерации текста в видео часто испытывает затруднения в сохранении визуальной идентичности изображений clipart или генерации мультяшного стиля движения, что приводит к неудовлетворительным результатам анимации. В данной статье мы представляем AniClipart, систему, которая преобразует статические изображения clipart в высококачественные последовательности движения под руководством предварительных знаний текста в видео. Для создания мультяшного стиля и плавного движения мы сначала определяем кривые Безье над ключевыми точками изображения clipart в качестве формы регуляризации движения. Затем мы выравниваем траектории движения ключевых точек с предоставленным текстовым запросом, оптимизируя потерю Video Score Distillation Sampling (VSDS), которая кодирует достаточные знания о естественном движении в предварительно обученной модели диффузии текста в видео. С помощью дифференцируемого алгоритма деформации формы As-Rigid-As-Possible наш метод может быть оптимизирован end-to-end с сохранением жесткости деформации. Экспериментальные результаты показывают, что предложенный AniClipart последовательно превосходит существующие модели генерации изображений в видео, с точки зрения выравнивания текста и видео, сохранения визуальной идентичности и согласованности движения. Более того, мы продемонстрировали универсальность AniClipart, адаптируя его для создания более широкого спектра форматов анимации, таких как слоистая анимация, позволяющая топологические изменения.
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way
of illustrating visual content. Traditional workflows to convert static clipart
images into motion sequences are laborious and time-consuming, involving
numerous intricate steps like rigging, key animation and in-betweening. Recent
advancements in text-to-video generation hold great potential in resolving this
problem. Nevertheless, direct application of text-to-video generation models
often struggles to retain the visual identity of clipart images or generate
cartoon-style motions, resulting in unsatisfactory animation outcomes. In this
paper, we introduce AniClipart, a system that transforms static clipart images
into high-quality motion sequences guided by text-to-video priors. To generate
cartoon-style and smooth motion, we first define B\'{e}zier curves over
keypoints of the clipart image as a form of motion regularization. We then
align the motion trajectories of the keypoints with the provided text prompt by
optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes
adequate knowledge of natural motion within a pretrained text-to-video
diffusion model. With a differentiable As-Rigid-As-Possible shape deformation
algorithm, our method can be end-to-end optimized while maintaining deformation
rigidity. Experimental results show that the proposed AniClipart consistently
outperforms existing image-to-video generation models, in terms of text-video
alignment, visual identity preservation, and motion consistency. Furthermore,
we showcase the versatility of AniClipart by adapting it to generate a broader
array of animation formats, such as layered animation, which allows topological
changes.Summary
AI-Generated Summary