ToonComposer: Ottimizzazione della Produzione di Cartoni Animati con Post-Keyframing Generativo
ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing
August 14, 2025
Autori: Lingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Abstract
La produzione tradizionale di cartoni animati e anime prevede fasi di keyframing, inbetweening e colorazione, che richiedono un intenso sforzo manuale. Nonostante i recenti progressi nell'IA, i metodi esistenti spesso gestiscono queste fasi separatamente, portando all'accumulo di errori e artefatti. Ad esempio, gli approcci di inbetweening faticano a gestire movimenti ampi, mentre i metodi di colorazione richiedono schizzi densi per ogni fotogramma. Per affrontare questo problema, presentiamo ToonComposer, un modello generativo che unisce inbetweening e colorazione in un'unica fase post-keyframing. ToonComposer utilizza un meccanismo di iniezione di schizzi sparsi per fornire un controllo preciso attraverso schizzi di keyframe. Inoltre, impiega un metodo di adattamento per cartoni animati con l'adattatore spaziale a basso rango per adattare un moderno modello di fondazione video al dominio dei cartoni animati, mantenendo intatta la sua priorità temporale. Richiedendo un solo schizzo e un fotogramma di riferimento colorato, ToonComposer eccelle con input sparsi, supportando anche più schizzi in qualsiasi posizione temporale per un controllo più preciso del movimento. Questa doppia capacità riduce il carico di lavoro manuale e migliora la flessibilità, potenziando gli artisti in scenari reali. Per valutare il nostro modello, abbiamo creato PKBench, un benchmark che include schizzi disegnati a mano che simulano casi d'uso reali. La nostra valutazione dimostra che ToonComposer supera i metodi esistenti in qualità visiva, coerenza del movimento ed efficienza produttiva, offrendo una soluzione superiore e più flessibile per la produzione di cartoni animati assistita dall'IA.
English
Traditional cartoon and anime production involves keyframing, inbetweening,
and colorization stages, which require intensive manual effort. Despite recent
advances in AI, existing methods often handle these stages separately, leading
to error accumulation and artifacts. For instance, inbetweening approaches
struggle with large motions, while colorization methods require dense per-frame
sketches. To address this, we introduce ToonComposer, a generative model that
unifies inbetweening and colorization into a single post-keyframing stage.
ToonComposer employs a sparse sketch injection mechanism to provide precise
control using keyframe sketches. Additionally, it uses a cartoon adaptation
method with the spatial low-rank adapter to tailor a modern video foundation
model to the cartoon domain while keeping its temporal prior intact. Requiring
as few as a single sketch and a colored reference frame, ToonComposer excels
with sparse inputs, while also supporting multiple sketches at any temporal
location for more precise motion control. This dual capability reduces manual
workload and improves flexibility, empowering artists in real-world scenarios.
To evaluate our model, we further created PKBench, a benchmark featuring
human-drawn sketches that simulate real-world use cases. Our evaluation
demonstrates that ToonComposer outperforms existing methods in visual quality,
motion consistency, and production efficiency, offering a superior and more
flexible solution for AI-assisted cartoon production.