ChatPaper.aiChatPaper

LongAnimation: Generación de Animaciones Largas con Memoria Global-Local Dinámica

LongAnimation: Long Animation Generation with Dynamic Global-Local Memory

July 2, 2025
Autores: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI

Resumen

La colorización de animaciones es una parte crucial de la producción en la industria de la animación real. La colorización de animaciones largas tiene altos costos laborales. Por lo tanto, la colorización automatizada de animaciones largas basada en modelos de generación de video tiene un valor de investigación significativo. Los estudios existentes se limitan a la colorización a corto plazo. Estos estudios adoptan un paradigma local, fusionando características superpuestas para lograr transiciones suaves entre segmentos locales. Sin embargo, el paradigma local descuida la información global, lo que impide mantener la consistencia de color a largo plazo. En este estudio, argumentamos que la consistencia de color ideal a largo plazo puede lograrse mediante un paradigma global-local dinámico, es decir, extrayendo dinámicamente características globales consistentes en color relevantes para la generación actual. Específicamente, proponemos LongAnimation, un marco novedoso que incluye principalmente un SketchDiT, una Memoria Global-Local Dinámica (DGLM) y una Recompensa de Consistencia de Color. El SketchDiT captura características de referencia híbridas para apoyar el módulo DGLM. El módulo DGLM emplea un modelo de comprensión de video largo para comprimir dinámicamente características históricas globales y fusionarlas de manera adaptativa con las características de la generación actual. Para refinar la consistencia de color, introducimos una Recompensa de Consistencia de Color. Durante la inferencia, proponemos una fusión de consistencia de color para suavizar la transición entre segmentos de video. Experimentos extensos en animaciones tanto a corto plazo (14 fotogramas) como a largo plazo (promedio de 500 fotogramas) muestran la efectividad de LongAnimation en mantener la consistencia de color a corto y largo plazo para la tarea de colorización de animaciones de dominio abierto. El código se puede encontrar en https://cn-makers.github.io/long_animation_web/.
English
Animation colorization is a crucial part of real animation industry production. Long animation colorization has high labor costs. Therefore, automated long animation colorization based on the video generation model has significant research value. Existing studies are limited to short-term colorization. These studies adopt a local paradigm, fusing overlapping features to achieve smooth transitions between local segments. However, the local paradigm neglects global information, failing to maintain long-term color consistency. In this study, we argue that ideal long-term color consistency can be achieved through a dynamic global-local paradigm, i.e., dynamically extracting global color-consistent features relevant to the current generation. Specifically, we propose LongAnimation, a novel framework, which mainly includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color Consistency Reward. The SketchDiT captures hybrid reference features to support the DGLM module. The DGLM module employs a long video understanding model to dynamically compress global historical features and adaptively fuse them with the current generation features. To refine the color consistency, we introduce a Color Consistency Reward. During inference, we propose a color consistency fusion to smooth the video segment transition. Extensive experiments on both short-term (14 frames) and long-term (average 500 frames) animations show the effectiveness of LongAnimation in maintaining short-term and long-term color consistency for open-domain animation colorization task. The code can be found at https://cn-makers.github.io/long_animation_web/.
PDF603July 3, 2025