ロングアニメーション:動的グローバル-ローカルメモリを用いた長時間アニメーション生成
LongAnimation: Long Animation Generation with Dynamic Global-Local Memory
July 2, 2025
著者: Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao
cs.AI
要旨
アニメーションの彩色は、実写アニメーション産業の制作において重要な部分を占めています。長編アニメーションの彩色は、高い人件費を伴います。そのため、ビデオ生成モデルに基づく長編アニメーションの自動彩色は、重要な研究価値を持ちます。既存の研究は、短期間の彩色に限定されています。これらの研究は、局所的なパラダイムを採用し、重複する特徴を融合させることで、局所的なセグメント間の滑らかな遷移を実現しています。しかし、局所的なパラダイムは、グローバルな情報を無視しており、長期的な色の一貫性を維持することができません。本研究では、理想的な長期的な色の一貫性は、動的なグローバル-ローカルパラダイム、すなわち、現在の生成に関連するグローバルな色の一貫性のある特徴を動的に抽出することで達成できると主張します。具体的には、SketchDiT、Dynamic Global-Local Memory (DGLM)、およびColor Consistency Rewardを含む新しいフレームワークであるLongAnimationを提案します。SketchDiTは、DGLMモジュールをサポートするためにハイブリッド参照特徴を捕捉します。DGLMモジュールは、長編ビデオ理解モデルを使用して、グローバルな歴史的特徴を動的に圧縮し、現在の生成特徴と適応的に融合します。色の一貫性を洗練するために、Color Consistency Rewardを導入します。推論中に、ビデオセグメントの遷移を滑らかにするために、色の一貫性融合を提案します。短期間(14フレーム)および長期間(平均500フレーム)のアニメーションに対する広範な実験により、LongAnimationがオープンドメインのアニメーション彩色タスクにおいて、短期間および長期間の色の一貫性を維持する効果を示しています。コードはhttps://cn-makers.github.io/long_animation_web/で確認できます。
English
Animation colorization is a crucial part of real animation industry
production. Long animation colorization has high labor costs. Therefore,
automated long animation colorization based on the video generation model has
significant research value. Existing studies are limited to short-term
colorization. These studies adopt a local paradigm, fusing overlapping features
to achieve smooth transitions between local segments. However, the local
paradigm neglects global information, failing to maintain long-term color
consistency. In this study, we argue that ideal long-term color consistency can
be achieved through a dynamic global-local paradigm, i.e., dynamically
extracting global color-consistent features relevant to the current generation.
Specifically, we propose LongAnimation, a novel framework, which mainly
includes a SketchDiT, a Dynamic Global-Local Memory (DGLM), and a Color
Consistency Reward. The SketchDiT captures hybrid reference features to support
the DGLM module. The DGLM module employs a long video understanding model to
dynamically compress global historical features and adaptively fuse them with
the current generation features. To refine the color consistency, we introduce
a Color Consistency Reward. During inference, we propose a color consistency
fusion to smooth the video segment transition. Extensive experiments on both
short-term (14 frames) and long-term (average 500 frames) animations show the
effectiveness of LongAnimation in maintaining short-term and long-term color
consistency for open-domain animation colorization task. The code can be found
at https://cn-makers.github.io/long_animation_web/.