FairyGen: Verhalend tekenfilmvideo van een enkele door een kind getekende figuur
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character
June 26, 2025
Auteurs: Jiayi Zheng, Xiaodong Cun
cs.AI
Samenvatting
We stellen FairyGen voor, een automatisch systeem voor het genereren van verhaalgedreven tekenfilmvideo's vanuit een enkele tekening van een kind, waarbij het unieke artistieke stijl trouw behouden blijft. In tegenstelling tot eerdere methoden voor verhalenvertelling die zich vooral richten op karakterconsistentie en basisbeweging, ontrafelt FairyGen expliciet karaktermodellering van gestileerde achtergrondgeneratie en integreert het cinematografische shotontwerp om expressief en samenhangend verhalenvertellen te ondersteunen. Gegeven een enkele karakterschets, gebruiken we eerst een MLLM om een gestructureerd storyboard te genereren met shotniveau-beschrijvingen die omgevingsinstellingen, karakteracties en cameraperspectieven specificeren. Om visuele consistentie te waarborgen, introduceren we een stijlpropagatie-adapter die de visuele stijl van het karakter vastlegt en toepast op de achtergrond, waardoor de volledige visuele identiteit van het karakter trouw behouden blijft terwijl stijlconsistente scènes worden gesynthetiseerd. Een shotontwerpmodule verbetert verder de visuele diversiteit en cinematografische kwaliteit door frame-cropping en multi-view-synthese op basis van het storyboard. Om het verhaal te animeren, reconstrueren we een 3D-proxy van het karakter om fysiek plausibele bewegingsreeksen af te leiden, die vervolgens worden gebruikt om een MMDiT-gebaseerd beeld-naar-video-diffusiemodel te finetunen. We stellen verder een tweefasen-bewegingscustomisatie-adapter voor: de eerste fase leert uiterlijkkenmerken van temporeel ongeordende frames, waarbij identiteit van beweging wordt ontrafeld; de tweede fase modelleert temporele dynamiek met behulp van een timestep-shift-strategie met bevroren identiteitsgewichten. Eenmaal getraind, rendert FairyGen direct diverse en samenhangende videoscènes die zijn afgestemd op het storyboard. Uitgebreide experimenten tonen aan dat ons systeem animaties produceert die stilistisch trouw zijn, narratief gestructureerd met natuurlijke beweging, wat het potentieel voor gepersonaliseerde en boeiende verhalenanimatie benadrukt. De code zal beschikbaar zijn op https://github.com/GVCLab/FairyGen.
English
We propose FairyGen, an automatic system for generating story-driven cartoon
videos from a single child's drawing, while faithfully preserving its unique
artistic style. Unlike previous storytelling methods that primarily focus on
character consistency and basic motion, FairyGen explicitly disentangles
character modeling from stylized background generation and incorporates
cinematic shot design to support expressive and coherent storytelling. Given a
single character sketch, we first employ an MLLM to generate a structured
storyboard with shot-level descriptions that specify environment settings,
character actions, and camera perspectives. To ensure visual consistency, we
introduce a style propagation adapter that captures the character's visual
style and applies it to the background, faithfully retaining the character's
full visual identity while synthesizing style-consistent scenes. A shot design
module further enhances visual diversity and cinematic quality through frame
cropping and multi-view synthesis based on the storyboard. To animate the
story, we reconstruct a 3D proxy of the character to derive physically
plausible motion sequences, which are then used to fine-tune an MMDiT-based
image-to-video diffusion model. We further propose a two-stage motion
customization adapter: the first stage learns appearance features from
temporally unordered frames, disentangling identity from motion; the second
stage models temporal dynamics using a timestep-shift strategy with frozen
identity weights. Once trained, FairyGen directly renders diverse and coherent
video scenes aligned with the storyboard. Extensive experiments demonstrate
that our system produces animations that are stylistically faithful,
narratively structured natural motion, highlighting its potential for
personalized and engaging story animation. The code will be available at
https://github.com/GVCLab/FairyGen