AniClipart: テキストからビデオへの事前知識を用いたクリップアートアニメーション
AniClipart: Clipart Animation with Text-to-Video Priors
April 18, 2024
著者: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI
要旨
クリップアートは、事前に作成されたグラフィックアート形式であり、視覚的なコンテンツを効率的に表現する便利な手段を提供します。静的なクリップアート画像を動画シーケンスに変換する従来のワークフローは、リギング、キーアニメーション、中間画作成など、多くの複雑な工程を伴い、手間と時間がかかります。最近のテキストから動画を生成する技術の進展は、この問題を解決する大きな可能性を秘めています。しかし、テキストから動画を生成するモデルを直接適用すると、クリップアート画像の視覚的な特徴を保持したり、カートゥーン風の動きを生成したりすることが難しく、満足のいくアニメーション結果が得られないことがあります。本論文では、テキストから動画を生成する事前知識を活用して、静的なクリップアート画像を高品質な動画シーケンスに変換するシステム「AniClipart」を紹介します。カートゥーン風で滑らかな動きを生成するために、まずクリップアート画像のキーポイント上にベジェ曲線を定義し、動きの正則化を行います。次に、事前学習済みのテキストから動画を生成する拡散モデルに含まれる自然な動きの知識をエンコードしたVideo Score Distillation Sampling (VSDS)損失を最適化することで、キーポイントの動きの軌跡を提供されたテキストプロンプトと整合させます。微分可能なAs-Rigid-As-Possible形状変形アルゴリズムを用いることで、変形の剛性を維持しつつ、エンドツーエンドで最適化が可能です。実験結果から、提案するAniClipartは、テキストと動画の整合性、視覚的な特徴の保持、動きの一貫性の点で、既存の画像から動画を生成するモデルを一貫して上回ることが示されています。さらに、AniClipartの汎用性を示すために、トポロジーの変化を可能にするレイヤードアニメーションなど、より多様なアニメーション形式を生成するための適応例を紹介します。
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way
of illustrating visual content. Traditional workflows to convert static clipart
images into motion sequences are laborious and time-consuming, involving
numerous intricate steps like rigging, key animation and in-betweening. Recent
advancements in text-to-video generation hold great potential in resolving this
problem. Nevertheless, direct application of text-to-video generation models
often struggles to retain the visual identity of clipart images or generate
cartoon-style motions, resulting in unsatisfactory animation outcomes. In this
paper, we introduce AniClipart, a system that transforms static clipart images
into high-quality motion sequences guided by text-to-video priors. To generate
cartoon-style and smooth motion, we first define B\'{e}zier curves over
keypoints of the clipart image as a form of motion regularization. We then
align the motion trajectories of the keypoints with the provided text prompt by
optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes
adequate knowledge of natural motion within a pretrained text-to-video
diffusion model. With a differentiable As-Rigid-As-Possible shape deformation
algorithm, our method can be end-to-end optimized while maintaining deformation
rigidity. Experimental results show that the proposed AniClipart consistently
outperforms existing image-to-video generation models, in terms of text-video
alignment, visual identity preservation, and motion consistency. Furthermore,
we showcase the versatility of AniClipart by adapting it to generate a broader
array of animation formats, such as layered animation, which allows topological
changes.Summary
AI-Generated Summary