ChatPaper.aiChatPaper

FairyGen: Animierte Geschichten aus einer einzigen von Kindern gezeichneten Figur

FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

June 26, 2025
Autoren: Jiayi Zheng, Xiaodong Cun
cs.AI

Zusammenfassung

Wir präsentieren FairyGen, ein automatisches System zur Erzeugung von geschichtengetriebenen Zeichentrickvideos aus einer einzigen Kinderzeichnung, das dabei den einzigartigen künstlerischen Stil treu bewahrt. Im Gegensatz zu früheren Storytelling-Methoden, die sich hauptsächlich auf Charakterkonsistenz und grundlegende Bewegungen konzentrieren, entwirrt FairyGen explizit die Charaktermodellierung von der stilisierten Hintergrundgenerierung und integriert filmische Kameraeinstellungen, um ausdrucksstarkes und kohärentes Storytelling zu unterstützen. Ausgehend von einer einzigen Charakterskizze verwenden wir zunächst ein MLLM, um ein strukturiertes Storyboard mit Beschreibungen auf Shot-Ebene zu generieren, die Umgebungseinstellungen, Charakteraktionen und Kameraperspektiven spezifizieren. Um visuelle Konsistenz zu gewährleisten, führen wir einen Stilpropagationsadapter ein, der den visuellen Stil des Charakters erfasst und auf den Hintergrund anwendet, wodurch die vollständige visuelle Identität des Charakters bewahrt wird, während stilkonforme Szenen synthetisiert werden. Ein Shot-Design-Modul erhöht die visuelle Vielfalt und filmische Qualität weiter durch Bildausschnitte und Multi-View-Synthese basierend auf dem Storyboard. Um die Geschichte zu animieren, rekonstruieren wir ein 3D-Proxy des Charakters, um physikalisch plausible Bewegungssequenzen abzuleiten, die dann verwendet werden, um ein MMDiT-basiertes Bild-zu-Video-Diffusionsmodell zu feinabstimmen. Wir schlagen außerdem einen zweistufigen Bewegungsanpassungsadapter vor: Die erste Stufe lernt Erscheinungsmerkmale aus zeitlich ungeordneten Frames und entwirrt Identität von Bewegung; die zweite Stufe modelliert zeitliche Dynamik mithilfe einer Timestep-Shift-Strategie mit eingefrorenen Identitätsgewichten. Einmal trainiert, rendert FairyGen direkt diverse und kohärente Videoszenen, die mit dem Storyboard übereinstimmen. Umfangreiche Experimente zeigen, dass unser System Animationen erzeugt, die stilistisch treu, narrativ strukturiert und mit natürlicher Bewegung sind, was sein Potenzial für personalisierte und fesselnde Geschichtenanimation unterstreicht. Der Code wird unter https://github.com/GVCLab/FairyGen verfügbar sein.
English
We propose FairyGen, an automatic system for generating story-driven cartoon videos from a single child's drawing, while faithfully preserving its unique artistic style. Unlike previous storytelling methods that primarily focus on character consistency and basic motion, FairyGen explicitly disentangles character modeling from stylized background generation and incorporates cinematic shot design to support expressive and coherent storytelling. Given a single character sketch, we first employ an MLLM to generate a structured storyboard with shot-level descriptions that specify environment settings, character actions, and camera perspectives. To ensure visual consistency, we introduce a style propagation adapter that captures the character's visual style and applies it to the background, faithfully retaining the character's full visual identity while synthesizing style-consistent scenes. A shot design module further enhances visual diversity and cinematic quality through frame cropping and multi-view synthesis based on the storyboard. To animate the story, we reconstruct a 3D proxy of the character to derive physically plausible motion sequences, which are then used to fine-tune an MMDiT-based image-to-video diffusion model. We further propose a two-stage motion customization adapter: the first stage learns appearance features from temporally unordered frames, disentangling identity from motion; the second stage models temporal dynamics using a timestep-shift strategy with frozen identity weights. Once trained, FairyGen directly renders diverse and coherent video scenes aligned with the storyboard. Extensive experiments demonstrate that our system produces animations that are stylistically faithful, narratively structured natural motion, highlighting its potential for personalized and engaging story animation. The code will be available at https://github.com/GVCLab/FairyGen
PDF41June 27, 2025