ChatPaper.aiChatPaper

LongAnimation: Lange Animationen mit dynamischem global-lokalem Speicher erzeugen

LongAnimation: Long Animation Generation with Dynamic Global-Local Memory

July 2, 2025
Autoren: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI

Zusammenfassung

Die Kolorierung von Animationen ist ein entscheidender Bestandteil der Produktion in der realen Animationsindustrie. Die Kolorierung langer Animationen verursacht hohe Arbeitskosten. Daher hat die automatisierte Kolorierung langer Animationen basierend auf einem Videogenerierungsmodell einen erheblichen Forschungswert. Bisherige Studien beschränken sich auf die Kurzzeitkolorierung. Diese Studien verwenden ein lokales Paradigma, bei dem überlappende Merkmale fusioniert werden, um fließende Übergänge zwischen lokalen Segmenten zu erreichen. Das lokale Paradigma vernachlässigt jedoch globale Informationen und kann keine langfristige Farbkonsistenz aufrechterhalten. In dieser Studie argumentieren wir, dass eine ideale langfristige Farbkonsistenz durch ein dynamisches global-lokales Paradigma erreicht werden kann, d.h. durch die dynamische Extraktion globaler farbkonsistenter Merkmale, die für die aktuelle Generierung relevant sind. Konkret schlagen wir LongAnimation vor, ein neuartiges Framework, das hauptsächlich einen SketchDiT, ein Dynamic Global-Local Memory (DGLM) und eine Color Consistency Reward umfasst. Der SketchDiT erfasst hybride Referenzmerkmale, um das DGLM-Modul zu unterstützen. Das DGLM-Modul verwendet ein Modell zum Verständnis langer Videos, um globale historische Merkmale dynamisch zu komprimieren und sie adaptiv mit den aktuellen Generierungsmerkmalen zu fusionieren. Um die Farbkonsistenz zu verfeinern, führen wir eine Color Consistency Reward ein. Während der Inferenz schlagen wir eine Farbkonsistenzfusion vor, um den Übergang zwischen Videosegmenten zu glätten. Umfangreiche Experimente sowohl mit kurzen (14 Frames) als auch mit langen (durchschnittlich 500 Frames) Animationen zeigen die Wirksamkeit von LongAnimation bei der Aufrechterhaltung der Kurzzeit- und Langzeitfarbkonsistenz für die Aufgabe der Kolorierung von Animationen in offenen Domänen. Der Code ist unter https://cn-makers.github.io/long_animation_web/ verfügbar.
English
Animation colorization is a crucial part of real animation industry production. Long animation colorization has high labor costs. Therefore, automated long animation colorization based on the video generation model has significant research value. Existing studies are limited to short-term colorization. These studies adopt a local paradigm, fusing overlapping features to achieve smooth transitions between local segments. However, the local paradigm neglects global information, failing to maintain long-term color consistency. In this study, we argue that ideal long-term color consistency can be achieved through a dynamic global-local paradigm, i.e., dynamically extracting global color-consistent features relevant to the current generation. Specifically, we propose LongAnimation, a novel framework, which mainly includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color Consistency Reward. The SketchDiT captures hybrid reference features to support the DGLM module. The DGLM module employs a long video understanding model to dynamically compress global historical features and adaptively fuse them with the current generation features. To refine the color consistency, we introduce a Color Consistency Reward. During inference, we propose a color consistency fusion to smooth the video segment transition. Extensive experiments on both short-term (14 frames) and long-term (average 500 frames) animations show the effectiveness of LongAnimation in maintaining short-term and long-term color consistency for open-domain animation colorization task. The code can be found at https://cn-makers.github.io/long_animation_web/.
PDF603July 3, 2025