LVCD: 参照ベースのラインアートビデオの拡散モデルによる着色
LVCD: Reference-based Lineart Video Colorization with Diffusion Models
September 19, 2024
著者: Zhitong Huang, Mohan Zhang, Jing Liao
cs.AI
要旨
私たちは、参照に基づいた線画ビデオの着色のための最初のビデオ拡散フレームワークを提案します。従来の作業とは異なり、フレームごとに線画に色を付けるために画像生成モデルだけに頼る従来の作業とは異なり、私たちのアプローチは大規模な事前学習済みビデオ拡散モデルを活用して、着色されたアニメーションビデオを生成します。このアプローチにより、より時間的に一貫した結果が得られ、大きな動きに対応できるようになります。まず、画像からビデオへの拡散モデルを微調整するための追加のコントロールを提供するSketch-guided ControlNetを紹介し、制御可能なビデオ合成のための画像からビデオへの拡散モデルを微調整するための追加のコントロールを提供し、線画に条件付けられたアニメーションビデオの生成を可能にします。次に、参照注意を提案して、参照フレームから高速で広範な動きを含む他のフレームに色を転送するのを容易にします。最後に、長いビデオの着色のための元の固定長の制限を超えるための新しいシーケンシャルサンプリングスキームを提案し、オーバーラップブレンディングモジュールと前方参照注意を組み込んで、ビデオ拡散モデルを拡張します。定性的および定量的な結果の両方が、私たちの手法がフレームおよびビデオの品質、および時間的一貫性の点で最先端の技術を大幅に上回ることを示しています。さらに、私たちの手法は、以前の作業では実現できなかった大きな動きを伴う高品質で長時間一貫したアニメーションビデオを生成する能力を持っています。私たちのコードとモデルは、https://luckyhzt.github.io/lvcd で入手できます。
English
We propose the first video diffusion framework for reference-based lineart
video colorization. Unlike previous works that rely solely on image generative
models to colorize lineart frame by frame, our approach leverages a large-scale
pretrained video diffusion model to generate colorized animation videos. This
approach leads to more temporally consistent results and is better equipped to
handle large motions. Firstly, we introduce Sketch-guided ControlNet which
provides additional control to finetune an image-to-video diffusion model for
controllable video synthesis, enabling the generation of animation videos
conditioned on lineart. We then propose Reference Attention to facilitate the
transfer of colors from the reference frame to other frames containing fast and
expansive motions. Finally, we present a novel scheme for sequential sampling,
incorporating the Overlapped Blending Module and Prev-Reference Attention, to
extend the video diffusion model beyond its original fixed-length limitation
for long video colorization. Both qualitative and quantitative results
demonstrate that our method significantly outperforms state-of-the-art
techniques in terms of frame and video quality, as well as temporal
consistency. Moreover, our method is capable of generating high-quality, long
temporal-consistent animation videos with large motions, which is not
achievable in previous works. Our code and model are available at
https://luckyhzt.github.io/lvcd.Summary
AI-Generated Summary