ToonComposer: Optimización de la Producción de Dibujos Animados con Post-Keyframing Generativo
ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing
August 14, 2025
Autores: Lingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Resumen
La producción tradicional de caricaturas y anime implica etapas de keyframing, inbetweening y colorización, que requieren un esfuerzo manual intensivo. A pesar de los recientes avances en IA, los métodos existentes suelen manejar estas etapas por separado, lo que genera acumulación de errores y artefactos. Por ejemplo, los enfoques de inbetweening tienen dificultades con movimientos amplios, mientras que los métodos de colorización requieren bocetos densos por fotograma. Para abordar esto, presentamos ToonComposer, un modelo generativo que unifica el inbetweening y la colorización en una única etapa posterior al keyframing. ToonComposer emplea un mecanismo de inyección de bocetos dispersos para proporcionar un control preciso utilizando bocetos de keyframes. Además, utiliza un método de adaptación de caricatura con un adaptador espacial de bajo rango para ajustar un modelo de video moderno al dominio de las caricaturas, manteniendo intacto su conocimiento temporal. Requiriendo tan solo un boceto y un fotograma de referencia coloreado, ToonComposer destaca con entradas dispersas, al mismo tiempo que admite múltiples bocetos en cualquier ubicación temporal para un control de movimiento más preciso. Esta doble capacidad reduce la carga de trabajo manual y mejora la flexibilidad, empoderando a los artistas en escenarios del mundo real. Para evaluar nuestro modelo, creamos PKBench, un punto de referencia que incluye bocetos dibujados por humanos que simulan casos de uso del mundo real. Nuestra evaluación demuestra que ToonComposer supera a los métodos existentes en calidad visual, consistencia de movimiento y eficiencia de producción, ofreciendo una solución superior y más flexible para la producción de caricaturas asistida por IA.
English
Traditional cartoon and anime production involves keyframing, inbetweening,
and colorization stages, which require intensive manual effort. Despite recent
advances in AI, existing methods often handle these stages separately, leading
to error accumulation and artifacts. For instance, inbetweening approaches
struggle with large motions, while colorization methods require dense per-frame
sketches. To address this, we introduce ToonComposer, a generative model that
unifies inbetweening and colorization into a single post-keyframing stage.
ToonComposer employs a sparse sketch injection mechanism to provide precise
control using keyframe sketches. Additionally, it uses a cartoon adaptation
method with the spatial low-rank adapter to tailor a modern video foundation
model to the cartoon domain while keeping its temporal prior intact. Requiring
as few as a single sketch and a colored reference frame, ToonComposer excels
with sparse inputs, while also supporting multiple sketches at any temporal
location for more precise motion control. This dual capability reduces manual
workload and improves flexibility, empowering artists in real-world scenarios.
To evaluate our model, we further created PKBench, a benchmark featuring
human-drawn sketches that simulate real-world use cases. Our evaluation
demonstrates that ToonComposer outperforms existing methods in visual quality,
motion consistency, and production efficiency, offering a superior and more
flexible solution for AI-assisted cartoon production.