LongAnimation : Génération de longues animations avec mémoire dynamique globale-locale
LongAnimation: Long Animation Generation with Dynamic Global-Local Memory
July 2, 2025
Auteurs: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI
Résumé
La colorisation d'animation est un élément crucial de la production dans l'industrie de l'animation réelle. La colorisation d'animations longues entraîne des coûts de main-d'œuvre élevés. Par conséquent, la colorisation automatisée d'animations longues basée sur un modèle de génération vidéo présente une valeur de recherche significative. Les études existantes se limitent à la colorisation à court terme. Ces études adoptent un paradigme local, fusionnant des caractéristiques qui se chevauchent pour obtenir des transitions fluides entre les segments locaux. Cependant, le paradigme local néglige les informations globales, ne parvenant pas à maintenir une cohérence de couleur à long terme. Dans cette étude, nous soutenons qu'une cohérence de couleur idéale à long terme peut être atteinte grâce à un paradigme dynamique global-local, c'est-à-dire en extrayant dynamiquement des caractéristiques globales cohérentes en couleur pertinentes pour la génération actuelle. Plus précisément, nous proposons LongAnimation, un nouveau cadre qui comprend principalement un SketchDiT, une Mémoire Dynamique Globale-Locale (DGLM) et une Récompense de Cohérence de Couleur. Le SketchDiT capture des caractéristiques de référence hybrides pour soutenir le module DGLM. Le module DGLM utilise un modèle de compréhension de vidéos longues pour compresser dynamiquement les caractéristiques historiques globales et les fusionner de manière adaptative avec les caractéristiques de la génération actuelle. Pour affiner la cohérence de couleur, nous introduisons une Récompense de Cohérence de Couleur. Pendant l'inférence, nous proposons une fusion de cohérence de couleur pour lisser la transition entre les segments vidéo. Des expériences approfondies sur des animations à court terme (14 images) et à long terme (en moyenne 500 images) montrent l'efficacité de LongAnimation à maintenir une cohérence de couleur à court et à long terme pour la tâche de colorisation d'animation en domaine ouvert. Le code est disponible à l'adresse https://cn-makers.github.io/long_animation_web/.
English
Animation colorization is a crucial part of real animation industry
production. Long animation colorization has high labor costs. Therefore,
automated long animation colorization based on the video generation model has
significant research value. Existing studies are limited to short-term
colorization. These studies adopt a local paradigm, fusing overlapping features
to achieve smooth transitions between local segments. However, the local
paradigm neglects global information, failing to maintain long-term color
consistency. In this study, we argue that ideal long-term color consistency can
be achieved through a dynamic global-local paradigm, i.e., dynamically
extracting global color-consistent features relevant to the current generation.
Specifically, we propose LongAnimation, a novel framework, which mainly
includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color
Consistency Reward. The SketchDiT captures hybrid reference features to support
the DGLM module. The DGLM module employs a long video understanding model to
dynamically compress global historical features and adaptively fuse them with
the current generation features. To refine the color consistency, we introduce
a Color Consistency Reward. During inference, we propose a color consistency
fusion to smooth the video segment transition. Extensive experiments on both
short-term (14 frames) and long-term (average 500 frames) animations show the
effectiveness of LongAnimation in maintaining short-term and long-term color
consistency for open-domain animation colorization task. The code can be found
at https://cn-makers.github.io/long_animation_web/.