LongAnimation: Generación de Animaciones Largas con Memoria Global-Local Dinámica
LongAnimation: Long Animation Generation with Dynamic Global-Local Memory
July 2, 2025
Autores: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI
Resumen
La colorización de animaciones es una parte crucial de la producción en la industria de la animación real. La colorización de animaciones largas tiene altos costos laborales. Por lo tanto, la colorización automatizada de animaciones largas basada en modelos de generación de video tiene un valor de investigación significativo. Los estudios existentes se limitan a la colorización a corto plazo. Estos estudios adoptan un paradigma local, fusionando características superpuestas para lograr transiciones suaves entre segmentos locales. Sin embargo, el paradigma local descuida la información global, lo que impide mantener la consistencia de color a largo plazo. En este estudio, argumentamos que la consistencia de color ideal a largo plazo puede lograrse mediante un paradigma global-local dinámico, es decir, extrayendo dinámicamente características globales consistentes en color relevantes para la generación actual. Específicamente, proponemos LongAnimation, un marco novedoso que incluye principalmente un SketchDiT, una Memoria Global-Local Dinámica (DGLM) y una Recompensa de Consistencia de Color. El SketchDiT captura características de referencia híbridas para apoyar el módulo DGLM. El módulo DGLM emplea un modelo de comprensión de video largo para comprimir dinámicamente características históricas globales y fusionarlas de manera adaptativa con las características de la generación actual. Para refinar la consistencia de color, introducimos una Recompensa de Consistencia de Color. Durante la inferencia, proponemos una fusión de consistencia de color para suavizar la transición entre segmentos de video. Experimentos extensos en animaciones tanto a corto plazo (14 fotogramas) como a largo plazo (promedio de 500 fotogramas) muestran la efectividad de LongAnimation en mantener la consistencia de color a corto y largo plazo para la tarea de colorización de animaciones de dominio abierto. El código se puede encontrar en https://cn-makers.github.io/long_animation_web/.
English
Animation colorization is a crucial part of real animation industry
production. Long animation colorization has high labor costs. Therefore,
automated long animation colorization based on the video generation model has
significant research value. Existing studies are limited to short-term
colorization. These studies adopt a local paradigm, fusing overlapping features
to achieve smooth transitions between local segments. However, the local
paradigm neglects global information, failing to maintain long-term color
consistency. In this study, we argue that ideal long-term color consistency can
be achieved through a dynamic global-local paradigm, i.e., dynamically
extracting global color-consistent features relevant to the current generation.
Specifically, we propose LongAnimation, a novel framework, which mainly
includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color
Consistency Reward. The SketchDiT captures hybrid reference features to support
the DGLM module. The DGLM module employs a long video understanding model to
dynamically compress global historical features and adaptively fuse them with
the current generation features. To refine the color consistency, we introduce
a Color Consistency Reward. During inference, we propose a color consistency
fusion to smooth the video segment transition. Extensive experiments on both
short-term (14 frames) and long-term (average 500 frames) animations show the
effectiveness of LongAnimation in maintaining short-term and long-term color
consistency for open-domain animation colorization task. The code can be found
at https://cn-makers.github.io/long_animation_web/.