ToonComposer: Simplificando a Produção de Desenhos Animados com Pós-Interpolação Generativa
ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing
August 14, 2025
Autores: Lingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Resumo
A produção tradicional de desenhos animados e animes envolve estágios de keyframing, inbetweening e colorização, que demandam um esforço manual intensivo. Apesar dos avanços recentes em IA, os métodos existentes frequentemente lidam com esses estágios de forma separada, resultando em acúmulo de erros e artefatos. Por exemplo, abordagens de inbetweening enfrentam dificuldades com movimentos amplos, enquanto métodos de colorização exigem esboços densos por quadro. Para resolver isso, apresentamos o ToonComposer, um modelo generativo que unifica inbetweening e colorização em um único estágio pós-keyframing. O ToonComposer emprega um mecanismo de injeção de esboços esparsos para fornecer controle preciso utilizando esboços de keyframes. Além disso, utiliza um método de adaptação para desenhos animados com o adaptador espacial de baixa classificação (spatial low-rank adapter) para ajustar um modelo de fundação de vídeo moderno ao domínio de desenhos animados, mantendo sua prioridade temporal intacta. Exigindo apenas um único esboço e um quadro de referência colorido, o ToonComposer se destaca com entradas esparsas, ao mesmo tempo que suporta múltiplos esboços em qualquer localização temporal para um controle de movimento mais preciso. Essa capacidade dupla reduz a carga de trabalho manual e aumenta a flexibilidade, capacitando artistas em cenários reais. Para avaliar nosso modelo, criamos ainda o PKBench, um benchmark com esboços desenhados à mão que simulam casos de uso reais. Nossa avaliação demonstra que o ToonComposer supera os métodos existentes em qualidade visual, consistência de movimento e eficiência de produção, oferecendo uma solução superior e mais flexível para a produção de desenhos animados assistida por IA.
English
Traditional cartoon and anime production involves keyframing, inbetweening,
and colorization stages, which require intensive manual effort. Despite recent
advances in AI, existing methods often handle these stages separately, leading
to error accumulation and artifacts. For instance, inbetweening approaches
struggle with large motions, while colorization methods require dense per-frame
sketches. To address this, we introduce ToonComposer, a generative model that
unifies inbetweening and colorization into a single post-keyframing stage.
ToonComposer employs a sparse sketch injection mechanism to provide precise
control using keyframe sketches. Additionally, it uses a cartoon adaptation
method with the spatial low-rank adapter to tailor a modern video foundation
model to the cartoon domain while keeping its temporal prior intact. Requiring
as few as a single sketch and a colored reference frame, ToonComposer excels
with sparse inputs, while also supporting multiple sketches at any temporal
location for more precise motion control. This dual capability reduces manual
workload and improves flexibility, empowering artists in real-world scenarios.
To evaluate our model, we further created PKBench, a benchmark featuring
human-drawn sketches that simulate real-world use cases. Our evaluation
demonstrates that ToonComposer outperforms existing methods in visual quality,
motion consistency, and production efficiency, offering a superior and more
flexible solution for AI-assisted cartoon production.