ToonComposer: Stroomlijning van Cartoonproductie met Generatieve Post-Keyframing

Samenvatting

Traditionele productie van cartoons en anime omvat fasen zoals keyframing, inbetweening en inkleuring, die intensieve handmatige inspanning vereisen. Ondanks recente vooruitgang in AI, behandelen bestaande methoden deze fasen vaak afzonderlijk, wat leidt tot foutaccumulatie en artefacten. Zo hebben inbetweening-benaderingen moeite met grote bewegingen, terwijl inkleurmethoden dichte schetsen per frame vereisen. Om dit aan te pakken, introduceren we ToonComposer, een generatief model dat inbetweening en inkleuring verenigt in een enkele post-keyframing fase. ToonComposer maakt gebruik van een mechanisme voor het injecteren van sparse schetsen om precieze controle te bieden met behulp van keyframe-schetsen. Daarnaast past het een cartoon-aanpassingsmethode toe met de spatial low-rank adapter om een modern videofoundationmodel aan te passen aan het cartoon-domein, terwijl de temporele prior intact blijft. Met slechts één schets en een gekleurd referentieframe presteert ToonComposer uitstekend met sparse inputs, terwijl het ook meerdere schetsen op elke temporele locatie ondersteunt voor preciezere bewegingscontrole. Deze dubbele mogelijkheid vermindert de handmatige werkdruk en verbetert de flexibiliteit, waardoor kunstenaars in realistische scenario's worden ondersteund. Om ons model te evalueren, hebben we PKBench ontwikkeld, een benchmark met door mensen getekende schetsen die realistische gebruiksscenario's simuleren. Onze evaluatie toont aan dat ToonComposer bestaande methoden overtreft in visuele kwaliteit, bewegingsconsistentie en productie-efficiëntie, en biedt zo een superieure en flexibelere oplossing voor AI-ondersteunde cartoonproductie.

English

Traditional cartoon and anime production involves keyframing, inbetweening, and colorization stages, which require intensive manual effort. Despite recent advances in AI, existing methods often handle these stages separately, leading to error accumulation and artifacts. For instance, inbetweening approaches struggle with large motions, while colorization methods require dense per-frame sketches. To address this, we introduce ToonComposer, a generative model that unifies inbetweening and colorization into a single post-keyframing stage. ToonComposer employs a sparse sketch injection mechanism to provide precise control using keyframe sketches. Additionally, it uses a cartoon adaptation method with the spatial low-rank adapter to tailor a modern video foundation model to the cartoon domain while keeping its temporal prior intact. Requiring as few as a single sketch and a colored reference frame, ToonComposer excels with sparse inputs, while also supporting multiple sketches at any temporal location for more precise motion control. This dual capability reduces manual workload and improves flexibility, empowering artists in real-world scenarios. To evaluate our model, we further created PKBench, a benchmark featuring human-drawn sketches that simulate real-world use cases. Our evaluation demonstrates that ToonComposer outperforms existing methods in visual quality, motion consistency, and production efficiency, offering a superior and more flexible solution for AI-assisted cartoon production.

ToonComposer: Stroomlijning van Cartoonproductie met Generatieve Post-Keyframing

ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Samenvatting

Support