ToonComposer: Simplificando a Produção de Desenhos Animados com Pós-Interpolação Generativa

Resumo

A produção tradicional de desenhos animados e animes envolve estágios de keyframing, inbetweening e colorização, que demandam um esforço manual intensivo. Apesar dos avanços recentes em IA, os métodos existentes frequentemente lidam com esses estágios de forma separada, resultando em acúmulo de erros e artefatos. Por exemplo, abordagens de inbetweening enfrentam dificuldades com movimentos amplos, enquanto métodos de colorização exigem esboços densos por quadro. Para resolver isso, apresentamos o ToonComposer, um modelo generativo que unifica inbetweening e colorização em um único estágio pós-keyframing. O ToonComposer emprega um mecanismo de injeção de esboços esparsos para fornecer controle preciso utilizando esboços de keyframes. Além disso, utiliza um método de adaptação para desenhos animados com o adaptador espacial de baixa classificação (spatial low-rank adapter) para ajustar um modelo de fundação de vídeo moderno ao domínio de desenhos animados, mantendo sua prioridade temporal intacta. Exigindo apenas um único esboço e um quadro de referência colorido, o ToonComposer se destaca com entradas esparsas, ao mesmo tempo que suporta múltiplos esboços em qualquer localização temporal para um controle de movimento mais preciso. Essa capacidade dupla reduz a carga de trabalho manual e aumenta a flexibilidade, capacitando artistas em cenários reais. Para avaliar nosso modelo, criamos ainda o PKBench, um benchmark com esboços desenhados à mão que simulam casos de uso reais. Nossa avaliação demonstra que o ToonComposer supera os métodos existentes em qualidade visual, consistência de movimento e eficiência de produção, oferecendo uma solução superior e mais flexível para a produção de desenhos animados assistida por IA.

English

Traditional cartoon and anime production involves keyframing, inbetweening, and colorization stages, which require intensive manual effort. Despite recent advances in AI, existing methods often handle these stages separately, leading to error accumulation and artifacts. For instance, inbetweening approaches struggle with large motions, while colorization methods require dense per-frame sketches. To address this, we introduce ToonComposer, a generative model that unifies inbetweening and colorization into a single post-keyframing stage. ToonComposer employs a sparse sketch injection mechanism to provide precise control using keyframe sketches. Additionally, it uses a cartoon adaptation method with the spatial low-rank adapter to tailor a modern video foundation model to the cartoon domain while keeping its temporal prior intact. Requiring as few as a single sketch and a colored reference frame, ToonComposer excels with sparse inputs, while also supporting multiple sketches at any temporal location for more precise motion control. This dual capability reduces manual workload and improves flexibility, empowering artists in real-world scenarios. To evaluate our model, we further created PKBench, a benchmark featuring human-drawn sketches that simulate real-world use cases. Our evaluation demonstrates that ToonComposer outperforms existing methods in visual quality, motion consistency, and production efficiency, offering a superior and more flexible solution for AI-assisted cartoon production.

ToonComposer: Simplificando a Produção de Desenhos Animados com Pós-Interpolação Generativa

ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Resumo

Support