LongAnimation: Генерация длинной анимации с использованием динамической глобально-локальной памяти
LongAnimation: Long Animation Generation with Dynamic Global-Local Memory
July 2, 2025
Авторы: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI
Аннотация
Колоризация анимации является важной частью производства в индустрии реальной анимации. Долгосрочная колоризация анимации связана с высокими затратами на рабочую силу. Поэтому автоматизированная долгосрочная колоризация анимации на основе моделей генерации видео имеет значительную научную ценность. Существующие исследования ограничиваются краткосрочной колоризацией. Эти исследования используют локальный подход, объединяя перекрывающиеся признаки для достижения плавных переходов между локальными сегментами. Однако локальный подход игнорирует глобальную информацию, что не позволяет поддерживать долгосрочную цветовую согласованность. В данном исследовании мы утверждаем, что идеальная долгосрочная цветовая согласованность может быть достигнута с помощью динамического глобально-локального подхода, то есть динамического извлечения глобальных цветосогласованных признаков, релевантных текущей генерации. В частности, мы предлагаем LongAnimation, новую структуру, которая включает SketchDiT, Динамическую Глобально-Локальную Память (DGLM) и Награду за Цветовую Согласованность. SketchDiT захватывает гибридные референсные признаки для поддержки модуля DGLM. Модуль DGLM использует модель понимания длинных видео для динамического сжатия глобальных исторических признаков и их адаптивного объединения с признаками текущей генерации. Для улучшения цветовой согласованности мы вводим Награду за Цветовую Согласованность. В процессе вывода мы предлагаем слияние цветовой согласованности для сглаживания перехода между сегментами видео. Многочисленные эксперименты на краткосрочных (14 кадров) и долгосрочных (в среднем 500 кадров) анимациях демонстрируют эффективность LongAnimation в поддержании краткосрочной и долгосрочной цветовой согласованности для задачи колоризации анимации в открытой области. Код доступен по адресу https://cn-makers.github.io/long_animation_web/.
English
Animation colorization is a crucial part of real animation industry
production. Long animation colorization has high labor costs. Therefore,
automated long animation colorization based on the video generation model has
significant research value. Existing studies are limited to short-term
colorization. These studies adopt a local paradigm, fusing overlapping features
to achieve smooth transitions between local segments. However, the local
paradigm neglects global information, failing to maintain long-term color
consistency. In this study, we argue that ideal long-term color consistency can
be achieved through a dynamic global-local paradigm, i.e., dynamically
extracting global color-consistent features relevant to the current generation.
Specifically, we propose LongAnimation, a novel framework, which mainly
includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color
Consistency Reward. The SketchDiT captures hybrid reference features to support
the DGLM module. The DGLM module employs a long video understanding model to
dynamically compress global historical features and adaptively fuse them with
the current generation features. To refine the color consistency, we introduce
a Color Consistency Reward. During inference, we propose a color consistency
fusion to smooth the video segment transition. Extensive experiments on both
short-term (14 frames) and long-term (average 500 frames) animations show the
effectiveness of LongAnimation in maintaining short-term and long-term color
consistency for open-domain animation colorization task. The code can be found
at https://cn-makers.github.io/long_animation_web/.