ToonComposer: Vereinfachung der Cartoon-Produktion durch generative Post-Keyframing-Technologie
ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing
August 14, 2025
papers.authors: Lingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
papers.abstract
Die traditionelle Produktion von Cartoons und Anime umfasst die Phasen Keyframing, Inbetweening und Kolorierung, die einen hohen manuellen Aufwand erfordern. Trotz jüngster Fortschritte in der KI behandeln bestehende Methoden diese Phasen oft separat, was zu Fehlerakkumulation und Artefakten führt. Beispielsweise haben Inbetweening-Ansätze Schwierigkeiten mit großen Bewegungen, während Kolorierungsmethoden dichte Skizzen pro Frame benötigen. Um dies zu adressieren, stellen wir ToonComposer vor, ein generatives Modell, das Inbetweening und Kolorierung in einer einzigen Post-Keyframing-Phase vereint. ToonComposer verwendet einen Mechanismus zur spärlichen Skizzeninjektion, um präzise Kontrolle durch Keyframe-Skizzen zu ermöglichen. Zusätzlich nutzt es eine Cartoon-Adaptionsmethode mit dem räumlichen Low-Rank-Adapter, um ein modernes Video-Foundation-Modell an den Cartoon-Bereich anzupassen, während dessen zeitliche Priorität erhalten bleibt. Mit nur einer einzigen Skizze und einem kolorierten Referenzrahmen zeigt ToonComposer hervorragende Ergebnisse bei spärlichen Eingaben, unterstützt aber auch mehrere Skizzen an beliebigen zeitlichen Positionen für präzisere Bewegungssteuerung. Diese duale Fähigkeit reduziert den manuellen Arbeitsaufwand und verbessert die Flexibilität, was Künstler in realen Szenarien unterstützt. Um unser Modell zu evaluieren, haben wir PKBench entwickelt, einen Benchmark mit handgezeichneten Skizzen, die reale Anwendungsfälle simulieren. Unsere Bewertung zeigt, dass ToonComposer bestehende Methoden in Bezug auf visuelle Qualität, Bewegungs-Konsistenz und Produktionseffizienz übertrifft und eine überlegene und flexiblere Lösung für die KI-unterstützte Cartoon-Produktion bietet.
English
Traditional cartoon and anime production involves keyframing, inbetweening,
and colorization stages, which require intensive manual effort. Despite recent
advances in AI, existing methods often handle these stages separately, leading
to error accumulation and artifacts. For instance, inbetweening approaches
struggle with large motions, while colorization methods require dense per-frame
sketches. To address this, we introduce ToonComposer, a generative model that
unifies inbetweening and colorization into a single post-keyframing stage.
ToonComposer employs a sparse sketch injection mechanism to provide precise
control using keyframe sketches. Additionally, it uses a cartoon adaptation
method with the spatial low-rank adapter to tailor a modern video foundation
model to the cartoon domain while keeping its temporal prior intact. Requiring
as few as a single sketch and a colored reference frame, ToonComposer excels
with sparse inputs, while also supporting multiple sketches at any temporal
location for more precise motion control. This dual capability reduces manual
workload and improves flexibility, empowering artists in real-world scenarios.
To evaluate our model, we further created PKBench, a benchmark featuring
human-drawn sketches that simulate real-world use cases. Our evaluation
demonstrates that ToonComposer outperforms existing methods in visual quality,
motion consistency, and production efficiency, offering a superior and more
flexible solution for AI-assisted cartoon production.