ChatPaper.aiChatPaper

LongAnimation : Génération de longues animations avec mémoire dynamique globale-locale

LongAnimation: Long Animation Generation with Dynamic Global-Local Memory

July 2, 2025
Auteurs: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI

Résumé

La colorisation d'animation est un élément crucial de la production dans l'industrie de l'animation réelle. La colorisation d'animations longues entraîne des coûts de main-d'œuvre élevés. Par conséquent, la colorisation automatisée d'animations longues basée sur un modèle de génération vidéo présente une valeur de recherche significative. Les études existantes se limitent à la colorisation à court terme. Ces études adoptent un paradigme local, fusionnant des caractéristiques qui se chevauchent pour obtenir des transitions fluides entre les segments locaux. Cependant, le paradigme local néglige les informations globales, ne parvenant pas à maintenir une cohérence de couleur à long terme. Dans cette étude, nous soutenons qu'une cohérence de couleur idéale à long terme peut être atteinte grâce à un paradigme dynamique global-local, c'est-à-dire en extrayant dynamiquement des caractéristiques globales cohérentes en couleur pertinentes pour la génération actuelle. Plus précisément, nous proposons LongAnimation, un nouveau cadre qui comprend principalement un SketchDiT, une Mémoire Dynamique Globale-Locale (DGLM) et une Récompense de Cohérence de Couleur. Le SketchDiT capture des caractéristiques de référence hybrides pour soutenir le module DGLM. Le module DGLM utilise un modèle de compréhension de vidéos longues pour compresser dynamiquement les caractéristiques historiques globales et les fusionner de manière adaptative avec les caractéristiques de la génération actuelle. Pour affiner la cohérence de couleur, nous introduisons une Récompense de Cohérence de Couleur. Pendant l'inférence, nous proposons une fusion de cohérence de couleur pour lisser la transition entre les segments vidéo. Des expériences approfondies sur des animations à court terme (14 images) et à long terme (en moyenne 500 images) montrent l'efficacité de LongAnimation à maintenir une cohérence de couleur à court et à long terme pour la tâche de colorisation d'animation en domaine ouvert. Le code est disponible à l'adresse https://cn-makers.github.io/long_animation_web/.
English
Animation colorization is a crucial part of real animation industry production. Long animation colorization has high labor costs. Therefore, automated long animation colorization based on the video generation model has significant research value. Existing studies are limited to short-term colorization. These studies adopt a local paradigm, fusing overlapping features to achieve smooth transitions between local segments. However, the local paradigm neglects global information, failing to maintain long-term color consistency. In this study, we argue that ideal long-term color consistency can be achieved through a dynamic global-local paradigm, i.e., dynamically extracting global color-consistent features relevant to the current generation. Specifically, we propose LongAnimation, a novel framework, which mainly includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color Consistency Reward. The SketchDiT captures hybrid reference features to support the DGLM module. The DGLM module employs a long video understanding model to dynamically compress global historical features and adaptively fuse them with the current generation features. To refine the color consistency, we introduce a Color Consistency Reward. During inference, we propose a color consistency fusion to smooth the video segment transition. Extensive experiments on both short-term (14 frames) and long-term (average 500 frames) animations show the effectiveness of LongAnimation in maintaining short-term and long-term color consistency for open-domain animation colorization task. The code can be found at https://cn-makers.github.io/long_animation_web/.
PDF603July 3, 2025