FairyGen: 単一の子供の描いたキャラクターから生成される物語風アニメーションビデオ
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character
June 26, 2025
著者: Jiayi Zheng, Xiaodong Cun
cs.AI
要旨
私たちは、FairyGenという自動システムを提案します。このシステムは、単一の子供の絵から物語主導のカートゥーンビデオを生成し、その独特の芸術的スタイルを忠実に保持します。これまでの物語生成手法が主にキャラクターの一貫性と基本的な動きに焦点を当てていたのに対し、FairyGenは、キャラクターモデリングとスタイライズされた背景生成を明示的に分離し、表現力豊かで一貫性のある物語をサポートするために映画的なショットデザインを取り入れています。単一のキャラクタースケッチが与えられると、まずMLLMを使用して、環境設定、キャラクターのアクション、カメラの視点を指定するショットレベルの記述を含む構造化されたストーリーボードを生成します。視覚的一貫性を確保するために、キャラクターの視覚的スタイルをキャプチャし、それを背景に適用するスタイル伝播アダプタを導入し、キャラクターの完全な視覚的アイデンティティを忠実に保持しながら、スタイルに一貫したシーンを合成します。ショットデザインモジュールは、ストーリーボードに基づいてフレームのクロッピングとマルチビュー合成を通じて視覚的多様性と映画的な品質をさらに向上させます。物語をアニメーション化するために、キャラクターの3Dプロキシを再構築し、物理的に妥当なモーションシーケンスを導出し、それを使用してMMDiTベースの画像からビデオへの拡散モデルを微調整します。さらに、2段階のモーションカスタマイズアダプタを提案します。第1段階では、時間的に順不同のフレームから外観特徴を学習し、アイデンティティとモーションを分離します。第2段階では、アイデンティティの重みを固定したタイムステップシフト戦略を使用して時間的ダイナミクスをモデル化します。一度訓練されると、FairyGenはストーリーボードに沿った多様で一貫性のあるビデオシーンを直接レンダリングします。広範な実験により、私たちのシステムがスタイル的に忠実で、物語的に構造化された自然な動きを持つアニメーションを生成することが示され、個人的で魅力的な物語アニメーションの可能性が強調されています。コードはhttps://github.com/GVCLab/FairyGenで公開されます。
English
We propose FairyGen, an automatic system for generating story-driven cartoon
videos from a single child's drawing, while faithfully preserving its unique
artistic style. Unlike previous storytelling methods that primarily focus on
character consistency and basic motion, FairyGen explicitly disentangles
character modeling from stylized background generation and incorporates
cinematic shot design to support expressive and coherent storytelling. Given a
single character sketch, we first employ an MLLM to generate a structured
storyboard with shot-level descriptions that specify environment settings,
character actions, and camera perspectives. To ensure visual consistency, we
introduce a style propagation adapter that captures the character's visual
style and applies it to the background, faithfully retaining the character's
full visual identity while synthesizing style-consistent scenes. A shot design
module further enhances visual diversity and cinematic quality through frame
cropping and multi-view synthesis based on the storyboard. To animate the
story, we reconstruct a 3D proxy of the character to derive physically
plausible motion sequences, which are then used to fine-tune an MMDiT-based
image-to-video diffusion model. We further propose a two-stage motion
customization adapter: the first stage learns appearance features from
temporally unordered frames, disentangling identity from motion; the second
stage models temporal dynamics using a timestep-shift strategy with frozen
identity weights. Once trained, FairyGen directly renders diverse and coherent
video scenes aligned with the storyboard. Extensive experiments demonstrate
that our system produces animations that are stylistically faithful,
narratively structured natural motion, highlighting its potential for
personalized and engaging story animation. The code will be available at
https://github.com/GVCLab/FairyGen