ChatPaper.aiChatPaper

LongAnimation: 동적 글로벌-로컬 메모리를 활용한 장편 애니메이션 생성

LongAnimation: Long Animation Generation with Dynamic Global-Local Memory

July 2, 2025
저자: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI

초록

애니메이션 채색은 실제 애니메이션 산업 생산에서 중요한 부분을 차지합니다. 긴 애니메이션 채색은 높은 인건비를 요구합니다. 따라서, 비디오 생성 모델을 기반으로 한 자동화된 긴 애니메이션 채색은 상당한 연구 가치가 있습니다. 기존 연구는 단기간 채색에 국한되어 있습니다. 이러한 연구는 로컬 패러다임을 채택하여 겹치는 특징을 융합함으로써 로컬 세그먼트 간의 원활한 전환을 달성합니다. 그러나 로컬 패러다임은 전역 정보를 간과하여 장기간 색상 일관성을 유지하지 못합니다. 본 연구에서는 이상적인 장기간 색상 일관성이 동적 전역-로컬 패러다임, 즉 현재 생성과 관련된 전역 색상 일관성 특징을 동적으로 추출함으로써 달성될 수 있다고 주장합니다. 구체적으로, 우리는 SketchDiT, 동적 전역-로컬 메모리(DGLM), 그리고 색상 일관성 보상을 포함하는 새로운 프레임워크인 LongAnimation을 제안합니다. SketchDiT는 DGLM 모듈을 지원하기 위해 하이브리드 참조 특징을 캡처합니다. DGLM 모듈은 긴 비디오 이해 모델을 사용하여 전역 역사적 특징을 동적으로 압축하고 현재 생성 특징과 적응적으로 융합합니다. 색상 일관성을 개선하기 위해 색상 일관성 보상을 도입합니다. 추론 과정에서 비디오 세그먼트 전환을 원활하게 하기 위해 색상 일관성 융합을 제안합니다. 단기간(14프레임) 및 장기간(평균 500프레임) 애니메이션에 대한 광범위한 실험은 LongAnimation이 오픈 도메인 애니메이션 채색 작업에서 단기간 및 장기간 색상 일관성을 유지하는 데 효과적임을 보여줍니다. 코드는 https://cn-makers.github.io/long_animation_web/에서 확인할 수 있습니다.
English
Animation colorization is a crucial part of real animation industry production. Long animation colorization has high labor costs. Therefore, automated long animation colorization based on the video generation model has significant research value. Existing studies are limited to short-term colorization. These studies adopt a local paradigm, fusing overlapping features to achieve smooth transitions between local segments. However, the local paradigm neglects global information, failing to maintain long-term color consistency. In this study, we argue that ideal long-term color consistency can be achieved through a dynamic global-local paradigm, i.e., dynamically extracting global color-consistent features relevant to the current generation. Specifically, we propose LongAnimation, a novel framework, which mainly includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color Consistency Reward. The SketchDiT captures hybrid reference features to support the DGLM module. The DGLM module employs a long video understanding model to dynamically compress global historical features and adaptively fuse them with the current generation features. To refine the color consistency, we introduce a Color Consistency Reward. During inference, we propose a color consistency fusion to smooth the video segment transition. Extensive experiments on both short-term (14 frames) and long-term (average 500 frames) animations show the effectiveness of LongAnimation in maintaining short-term and long-term color consistency for open-domain animation colorization task. The code can be found at https://cn-makers.github.io/long_animation_web/.
PDF603July 3, 2025