LongAnimation: Lange Animatiegeneratie met Dynamisch Globaal-Lokaal Geheugen
LongAnimation: Long Animation Generation with Dynamic Global-Local Memory
July 2, 2025
Auteurs: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI
Samenvatting
Animatiekleuring is een cruciaal onderdeel van de productie in de echte animatie-industrie. Het kleuren van lange animaties brengt hoge arbeidskosten met zich mee. Daarom heeft geautomatiseerde kleuring van lange animaties op basis van het videogeneratiemodel aanzienlijke onderzoekswaarde. Bestaande studies zijn beperkt tot kortetermijnkleuring. Deze studies hanteren een lokaal paradigma, waarbij overlappende kenmerken worden samengevoegd om soepele overgangen tussen lokale segmenten te bereiken. Het lokale paradigma negeert echter globale informatie, waardoor langetermijnkleurconsistentie niet wordt behouden. In deze studie stellen wij dat ideale langetermijnkleurconsistentie kan worden bereikt door een dynamisch globaal-lokaal paradigma, waarbij globaal kleurconsistente kenmerken die relevant zijn voor de huidige generatie dynamisch worden geëxtraheerd. Specifiek stellen wij LongAnimation voor, een nieuw framework dat voornamelijk bestaat uit een SketchDiT, een Dynamisch Globaal-Lokaal Geheugen (DGLM) en een Kleurconsistentiebeloning. De SketchDiT vangt hybride referentiekenmerken op om het DGLM-module te ondersteunen. De DGLM-module gebruikt een lang video-begrijpend model om globale historische kenmerken dynamisch te comprimeren en deze adaptief te fuseren met de huidige generatiekenmerken. Om de kleurconsistentie te verfijnen, introduceren wij een Kleurconsistentiebeloning. Tijdens de inferentie stellen wij een kleurconsistentiefusie voor om de overgang tussen videosegmenten te verzachten. Uitgebreide experimenten op zowel kortetermijn (14 frames) als langetermijn (gemiddeld 500 frames) animaties tonen de effectiviteit van LongAnimation in het behouden van kortetermijn- en langetermijnkleurconsistentie voor de taak van open-domein animatiekleuring. De code is te vinden op https://cn-makers.github.io/long_animation_web/.
English
Animation colorization is a crucial part of real animation industry
production. Long animation colorization has high labor costs. Therefore,
automated long animation colorization based on the video generation model has
significant research value. Existing studies are limited to short-term
colorization. These studies adopt a local paradigm, fusing overlapping features
to achieve smooth transitions between local segments. However, the local
paradigm neglects global information, failing to maintain long-term color
consistency. In this study, we argue that ideal long-term color consistency can
be achieved through a dynamic global-local paradigm, i.e., dynamically
extracting global color-consistent features relevant to the current generation.
Specifically, we propose LongAnimation, a novel framework, which mainly
includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color
Consistency Reward. The SketchDiT captures hybrid reference features to support
the DGLM module. The DGLM module employs a long video understanding model to
dynamically compress global historical features and adaptively fuse them with
the current generation features. To refine the color consistency, we introduce
a Color Consistency Reward. During inference, we propose a color consistency
fusion to smooth the video segment transition. Extensive experiments on both
short-term (14 frames) and long-term (average 500 frames) animations show the
effectiveness of LongAnimation in maintaining short-term and long-term color
consistency for open-domain animation colorization task. The code can be found
at https://cn-makers.github.io/long_animation_web/.