ChatPaper.aiChatPaper

LVCD: Referenzbasierte Kolorierung von Linienzeichnungen in Videos mit Diffusionsmodellen

LVCD: Reference-based Lineart Video Colorization with Diffusion Models

September 19, 2024
Autoren: Zhitong Huang, Mohan Zhang, Jing Liao
cs.AI

Zusammenfassung

Wir schlagen das erste Video-Diffusionsframework für die referenzbasierte Linienkunst-Videokolorierung vor. Im Gegensatz zu früheren Arbeiten, die ausschließlich auf bildgenerative Modelle zur Kolorierung von Linienkunstbildern Frame für Frame angewiesen sind, nutzt unser Ansatz ein groß angelegtes, vorab trainiertes Video-Diffusionsmodell, um kolorierte Animationsvideos zu generieren. Dieser Ansatz führt zu zeitlich konsistenteren Ergebnissen und ist besser geeignet, um große Bewegungen zu handhaben. Zunächst stellen wir das Sketch-guided ControlNet vor, das zusätzliche Steuerung bietet, um ein Bild-zu-Video-Diffusionsmodell für kontrollierte Videosynthese feinzustimmen, was die Generierung von Animationsvideos ermöglicht, die auf Linienkunst basieren. Anschließend schlagen wir die Reference Attention vor, um den Transfer von Farben vom Referenzrahmen zu anderen Frames mit schnellen und weitreichenden Bewegungen zu erleichtern. Schließlich präsentieren wir ein neuartiges Schema für die sequenzielle Abtastung, das das Overlapped Blending Module und die Prev-Reference Attention integriert, um das Video-Diffusionsmodell über seine ursprüngliche festgelegte Längenbeschränkung hinaus für die langfristige Videokolorierung zu erweitern. Sowohl qualitative als auch quantitative Ergebnisse zeigen, dass unsere Methode in Bezug auf Bild- und Videoqualität sowie zeitliche Konsistenz signifikant besser abschneidet als modernste Techniken. Darüber hinaus ist unsere Methode in der Lage, hochwertige, langfristig konsistente Animationsvideos mit großen Bewegungen zu generieren, was in früheren Arbeiten nicht erreicht wurde. Unser Code und Modell sind unter https://luckyhzt.github.io/lvcd verfügbar.
English
We propose the first video diffusion framework for reference-based lineart video colorization. Unlike previous works that rely solely on image generative models to colorize lineart frame by frame, our approach leverages a large-scale pretrained video diffusion model to generate colorized animation videos. This approach leads to more temporally consistent results and is better equipped to handle large motions. Firstly, we introduce Sketch-guided ControlNet which provides additional control to finetune an image-to-video diffusion model for controllable video synthesis, enabling the generation of animation videos conditioned on lineart. We then propose Reference Attention to facilitate the transfer of colors from the reference frame to other frames containing fast and expansive motions. Finally, we present a novel scheme for sequential sampling, incorporating the Overlapped Blending Module and Prev-Reference Attention, to extend the video diffusion model beyond its original fixed-length limitation for long video colorization. Both qualitative and quantitative results demonstrate that our method significantly outperforms state-of-the-art techniques in terms of frame and video quality, as well as temporal consistency. Moreover, our method is capable of generating high-quality, long temporal-consistent animation videos with large motions, which is not achievable in previous works. Our code and model are available at https://luckyhzt.github.io/lvcd.

Summary

AI-Generated Summary

PDF257November 16, 2024