LongAnimation: Geração de Animações Longas com Memória Global-Local Dinâmica
LongAnimation: Long Animation Generation with Dynamic Global-Local Memory
July 2, 2025
Autores: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI
Resumo
A colorização de animações é uma parte crucial da produção na indústria de animação real. A colorização de animações longas possui custos trabalhistas elevados. Portanto, a colorização automatizada de animações longas baseada em modelos de geração de vídeo tem um valor de pesquisa significativo. Os estudos existentes são limitados à colorização de curto prazo. Esses estudos adotam um paradigma local, fundindo características sobrepostas para alcançar transições suaves entre segmentos locais. No entanto, o paradigma local negligencia informações globais, falhando em manter a consistência de cores a longo prazo. Neste estudo, argumentamos que a consistência ideal de cores a longo prazo pode ser alcançada através de um paradigma global-local dinâmico, ou seja, extraindo dinamicamente características globais de consistência de cores relevantes para a geração atual. Especificamente, propomos o LongAnimation, uma nova estrutura que inclui principalmente um SketchDiT, uma Memória Global-Local Dinâmica (DGLM) e uma Recompensa de Consistência de Cores. O SketchDiT captura características de referência híbridas para suportar o módulo DGLM. O módulo DGLM emprega um modelo de compreensão de vídeo longo para comprimir dinamicamente características históricas globais e fundi-las adaptativamente com as características de geração atual. Para refinar a consistência de cores, introduzimos uma Recompensa de Consistência de Cores. Durante a inferência, propomos uma fusão de consistência de cores para suavizar a transição entre segmentos de vídeo. Experimentos extensivos em animações de curto prazo (14 quadros) e longo prazo (média de 500 quadros) mostram a eficácia do LongAnimation em manter a consistência de cores a curto e longo prazo para a tarefa de colorização de animações de domínio aberto. O código pode ser encontrado em https://cn-makers.github.io/long_animation_web/.
English
Animation colorization is a crucial part of real animation industry
production. Long animation colorization has high labor costs. Therefore,
automated long animation colorization based on the video generation model has
significant research value. Existing studies are limited to short-term
colorization. These studies adopt a local paradigm, fusing overlapping features
to achieve smooth transitions between local segments. However, the local
paradigm neglects global information, failing to maintain long-term color
consistency. In this study, we argue that ideal long-term color consistency can
be achieved through a dynamic global-local paradigm, i.e., dynamically
extracting global color-consistent features relevant to the current generation.
Specifically, we propose LongAnimation, a novel framework, which mainly
includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color
Consistency Reward. The SketchDiT captures hybrid reference features to support
the DGLM module. The DGLM module employs a long video understanding model to
dynamically compress global historical features and adaptively fuse them with
the current generation features. To refine the color consistency, we introduce
a Color Consistency Reward. During inference, we propose a color consistency
fusion to smooth the video segment transition. Extensive experiments on both
short-term (14 frames) and long-term (average 500 frames) animations show the
effectiveness of LongAnimation in maintaining short-term and long-term color
consistency for open-domain animation colorization task. The code can be found
at https://cn-makers.github.io/long_animation_web/.