ToonComposer: Stroomlijning van Cartoonproductie met Generatieve Post-Keyframing
ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing
August 14, 2025
Auteurs: Lingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Samenvatting
Traditionele productie van cartoons en anime omvat fasen zoals keyframing, inbetweening en inkleuring, die intensieve handmatige inspanning vereisen. Ondanks recente vooruitgang in AI, behandelen bestaande methoden deze fasen vaak afzonderlijk, wat leidt tot foutaccumulatie en artefacten. Zo hebben inbetweening-benaderingen moeite met grote bewegingen, terwijl inkleurmethoden dichte schetsen per frame vereisen. Om dit aan te pakken, introduceren we ToonComposer, een generatief model dat inbetweening en inkleuring verenigt in een enkele post-keyframing fase. ToonComposer maakt gebruik van een mechanisme voor het injecteren van sparse schetsen om precieze controle te bieden met behulp van keyframe-schetsen. Daarnaast past het een cartoon-aanpassingsmethode toe met de spatial low-rank adapter om een modern videofoundationmodel aan te passen aan het cartoon-domein, terwijl de temporele prior intact blijft. Met slechts één schets en een gekleurd referentieframe presteert ToonComposer uitstekend met sparse inputs, terwijl het ook meerdere schetsen op elke temporele locatie ondersteunt voor preciezere bewegingscontrole. Deze dubbele mogelijkheid vermindert de handmatige werkdruk en verbetert de flexibiliteit, waardoor kunstenaars in realistische scenario's worden ondersteund. Om ons model te evalueren, hebben we PKBench ontwikkeld, een benchmark met door mensen getekende schetsen die realistische gebruiksscenario's simuleren. Onze evaluatie toont aan dat ToonComposer bestaande methoden overtreft in visuele kwaliteit, bewegingsconsistentie en productie-efficiëntie, en biedt zo een superieure en flexibelere oplossing voor AI-ondersteunde cartoonproductie.
English
Traditional cartoon and anime production involves keyframing, inbetweening,
and colorization stages, which require intensive manual effort. Despite recent
advances in AI, existing methods often handle these stages separately, leading
to error accumulation and artifacts. For instance, inbetweening approaches
struggle with large motions, while colorization methods require dense per-frame
sketches. To address this, we introduce ToonComposer, a generative model that
unifies inbetweening and colorization into a single post-keyframing stage.
ToonComposer employs a sparse sketch injection mechanism to provide precise
control using keyframe sketches. Additionally, it uses a cartoon adaptation
method with the spatial low-rank adapter to tailor a modern video foundation
model to the cartoon domain while keeping its temporal prior intact. Requiring
as few as a single sketch and a colored reference frame, ToonComposer excels
with sparse inputs, while also supporting multiple sketches at any temporal
location for more precise motion control. This dual capability reduces manual
workload and improves flexibility, empowering artists in real-world scenarios.
To evaluate our model, we further created PKBench, a benchmark featuring
human-drawn sketches that simulate real-world use cases. Our evaluation
demonstrates that ToonComposer outperforms existing methods in visual quality,
motion consistency, and production efficiency, offering a superior and more
flexible solution for AI-assisted cartoon production.