ToonComposer: Ottimizzazione della Produzione di Cartoni Animati con Post-Keyframing Generativo

Abstract

La produzione tradizionale di cartoni animati e anime prevede fasi di keyframing, inbetweening e colorazione, che richiedono un intenso sforzo manuale. Nonostante i recenti progressi nell'IA, i metodi esistenti spesso gestiscono queste fasi separatamente, portando all'accumulo di errori e artefatti. Ad esempio, gli approcci di inbetweening faticano a gestire movimenti ampi, mentre i metodi di colorazione richiedono schizzi densi per ogni fotogramma. Per affrontare questo problema, presentiamo ToonComposer, un modello generativo che unisce inbetweening e colorazione in un'unica fase post-keyframing. ToonComposer utilizza un meccanismo di iniezione di schizzi sparsi per fornire un controllo preciso attraverso schizzi di keyframe. Inoltre, impiega un metodo di adattamento per cartoni animati con l'adattatore spaziale a basso rango per adattare un moderno modello di fondazione video al dominio dei cartoni animati, mantenendo intatta la sua priorità temporale. Richiedendo un solo schizzo e un fotogramma di riferimento colorato, ToonComposer eccelle con input sparsi, supportando anche più schizzi in qualsiasi posizione temporale per un controllo più preciso del movimento. Questa doppia capacità riduce il carico di lavoro manuale e migliora la flessibilità, potenziando gli artisti in scenari reali. Per valutare il nostro modello, abbiamo creato PKBench, un benchmark che include schizzi disegnati a mano che simulano casi d'uso reali. La nostra valutazione dimostra che ToonComposer supera i metodi esistenti in qualità visiva, coerenza del movimento ed efficienza produttiva, offrendo una soluzione superiore e più flessibile per la produzione di cartoni animati assistita dall'IA.

English

Traditional cartoon and anime production involves keyframing, inbetweening, and colorization stages, which require intensive manual effort. Despite recent advances in AI, existing methods often handle these stages separately, leading to error accumulation and artifacts. For instance, inbetweening approaches struggle with large motions, while colorization methods require dense per-frame sketches. To address this, we introduce ToonComposer, a generative model that unifies inbetweening and colorization into a single post-keyframing stage. ToonComposer employs a sparse sketch injection mechanism to provide precise control using keyframe sketches. Additionally, it uses a cartoon adaptation method with the spatial low-rank adapter to tailor a modern video foundation model to the cartoon domain while keeping its temporal prior intact. Requiring as few as a single sketch and a colored reference frame, ToonComposer excels with sparse inputs, while also supporting multiple sketches at any temporal location for more precise motion control. This dual capability reduces manual workload and improves flexibility, empowering artists in real-world scenarios. To evaluate our model, we further created PKBench, a benchmark featuring human-drawn sketches that simulate real-world use cases. Our evaluation demonstrates that ToonComposer outperforms existing methods in visual quality, motion consistency, and production efficiency, offering a superior and more flexible solution for AI-assisted cartoon production.

ToonComposer: Ottimizzazione della Produzione di Cartoni Animati con Post-Keyframing Generativo

ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Abstract

Support