ChatPaper.aiChatPaper

LVCD: Цветизация видео по контуру с использованием ссылок и моделей диффузии

LVCD: Reference-based Lineart Video Colorization with Diffusion Models

September 19, 2024
Авторы: Zhitong Huang, Mohan Zhang, Jing Liao
cs.AI

Аннотация

Мы предлагаем первую структуру видео-диффузии для цветизации видео с линейными чертами с использованием ссылочных данных. В отличие от предыдущих работ, основанных исключительно на моделях генерации изображений для раскрашивания кадр за кадром, наш подход использует масштабную предварительно обученную модель видео-диффузии для создания цветных анимационных видео. Этот подход обеспечивает более временно согласованные результаты и лучше справляется с большими движениями. Во-первых, мы представляем Sketch-guided ControlNet, который обеспечивает дополнительное управление для настройки модели диффузии изображения в видео для управляемого синтеза видео, позволяя создавать анимационные видео на основе линейных черт. Затем мы предлагаем Reference Attention для упрощения передачи цветов из опорного кадра в другие кадры с быстрыми и обширными движениями. Наконец, мы представляем новую схему последовательной выборки, включающую модуль наложенного смешивания и Prev-Reference Attention, для расширения модели видео-диффузии за пределы ее исходного фиксированного ограничения длины для длительной цветизации видео. Как качественные, так и количественные результаты демонстрируют, что наш метод значительно превосходит современные техники по качеству кадра и видео, а также временной согласованности. Более того, наш метод способен создавать высококачественные, длительные временно согласованные анимационные видео с большими движениями, что недостижимо в предыдущих работах. Наш код и модель доступны по адресу https://luckyhzt.github.io/lvcd.
English
We propose the first video diffusion framework for reference-based lineart video colorization. Unlike previous works that rely solely on image generative models to colorize lineart frame by frame, our approach leverages a large-scale pretrained video diffusion model to generate colorized animation videos. This approach leads to more temporally consistent results and is better equipped to handle large motions. Firstly, we introduce Sketch-guided ControlNet which provides additional control to finetune an image-to-video diffusion model for controllable video synthesis, enabling the generation of animation videos conditioned on lineart. We then propose Reference Attention to facilitate the transfer of colors from the reference frame to other frames containing fast and expansive motions. Finally, we present a novel scheme for sequential sampling, incorporating the Overlapped Blending Module and Prev-Reference Attention, to extend the video diffusion model beyond its original fixed-length limitation for long video colorization. Both qualitative and quantitative results demonstrate that our method significantly outperforms state-of-the-art techniques in terms of frame and video quality, as well as temporal consistency. Moreover, our method is capable of generating high-quality, long temporal-consistent animation videos with large motions, which is not achievable in previous works. Our code and model are available at https://luckyhzt.github.io/lvcd.

Summary

AI-Generated Summary

PDF257November 16, 2024