LVCD: Referenzbasierte Kolorierung von Linienzeichnungen in Videos mit Diffusionsmodellen
LVCD: Reference-based Lineart Video Colorization with Diffusion Models
September 19, 2024
Autoren: Zhitong Huang, Mohan Zhang, Jing Liao
cs.AI
Zusammenfassung
Wir schlagen das erste Video-Diffusionsframework für die referenzbasierte Linienkunst-Videokolorierung vor. Im Gegensatz zu früheren Arbeiten, die ausschließlich auf bildgenerative Modelle zur Kolorierung von Linienkunstbildern Frame für Frame angewiesen sind, nutzt unser Ansatz ein groß angelegtes, vorab trainiertes Video-Diffusionsmodell, um kolorierte Animationsvideos zu generieren. Dieser Ansatz führt zu zeitlich konsistenteren Ergebnissen und ist besser geeignet, um große Bewegungen zu handhaben. Zunächst stellen wir das Sketch-guided ControlNet vor, das zusätzliche Steuerung bietet, um ein Bild-zu-Video-Diffusionsmodell für kontrollierte Videosynthese feinzustimmen, was die Generierung von Animationsvideos ermöglicht, die auf Linienkunst basieren. Anschließend schlagen wir die Reference Attention vor, um den Transfer von Farben vom Referenzrahmen zu anderen Frames mit schnellen und weitreichenden Bewegungen zu erleichtern. Schließlich präsentieren wir ein neuartiges Schema für die sequenzielle Abtastung, das das Overlapped Blending Module und die Prev-Reference Attention integriert, um das Video-Diffusionsmodell über seine ursprüngliche festgelegte Längenbeschränkung hinaus für die langfristige Videokolorierung zu erweitern. Sowohl qualitative als auch quantitative Ergebnisse zeigen, dass unsere Methode in Bezug auf Bild- und Videoqualität sowie zeitliche Konsistenz signifikant besser abschneidet als modernste Techniken. Darüber hinaus ist unsere Methode in der Lage, hochwertige, langfristig konsistente Animationsvideos mit großen Bewegungen zu generieren, was in früheren Arbeiten nicht erreicht wurde. Unser Code und Modell sind unter https://luckyhzt.github.io/lvcd verfügbar.
English
We propose the first video diffusion framework for reference-based lineart
video colorization. Unlike previous works that rely solely on image generative
models to colorize lineart frame by frame, our approach leverages a large-scale
pretrained video diffusion model to generate colorized animation videos. This
approach leads to more temporally consistent results and is better equipped to
handle large motions. Firstly, we introduce Sketch-guided ControlNet which
provides additional control to finetune an image-to-video diffusion model for
controllable video synthesis, enabling the generation of animation videos
conditioned on lineart. We then propose Reference Attention to facilitate the
transfer of colors from the reference frame to other frames containing fast and
expansive motions. Finally, we present a novel scheme for sequential sampling,
incorporating the Overlapped Blending Module and Prev-Reference Attention, to
extend the video diffusion model beyond its original fixed-length limitation
for long video colorization. Both qualitative and quantitative results
demonstrate that our method significantly outperforms state-of-the-art
techniques in terms of frame and video quality, as well as temporal
consistency. Moreover, our method is capable of generating high-quality, long
temporal-consistent animation videos with large motions, which is not
achievable in previous works. Our code and model are available at
https://luckyhzt.github.io/lvcd.Summary
AI-Generated Summary