LVCD: Цветизация видео по контуру с использованием ссылок и моделей диффузии
LVCD: Reference-based Lineart Video Colorization with Diffusion Models
September 19, 2024
Авторы: Zhitong Huang, Mohan Zhang, Jing Liao
cs.AI
Аннотация
Мы предлагаем первую структуру видео-диффузии для цветизации видео с линейными чертами с использованием ссылочных данных. В отличие от предыдущих работ, основанных исключительно на моделях генерации изображений для раскрашивания кадр за кадром, наш подход использует масштабную предварительно обученную модель видео-диффузии для создания цветных анимационных видео. Этот подход обеспечивает более временно согласованные результаты и лучше справляется с большими движениями. Во-первых, мы представляем Sketch-guided ControlNet, который обеспечивает дополнительное управление для настройки модели диффузии изображения в видео для управляемого синтеза видео, позволяя создавать анимационные видео на основе линейных черт. Затем мы предлагаем Reference Attention для упрощения передачи цветов из опорного кадра в другие кадры с быстрыми и обширными движениями. Наконец, мы представляем новую схему последовательной выборки, включающую модуль наложенного смешивания и Prev-Reference Attention, для расширения модели видео-диффузии за пределы ее исходного фиксированного ограничения длины для длительной цветизации видео. Как качественные, так и количественные результаты демонстрируют, что наш метод значительно превосходит современные техники по качеству кадра и видео, а также временной согласованности. Более того, наш метод способен создавать высококачественные, длительные временно согласованные анимационные видео с большими движениями, что недостижимо в предыдущих работах. Наш код и модель доступны по адресу https://luckyhzt.github.io/lvcd.
English
We propose the first video diffusion framework for reference-based lineart
video colorization. Unlike previous works that rely solely on image generative
models to colorize lineart frame by frame, our approach leverages a large-scale
pretrained video diffusion model to generate colorized animation videos. This
approach leads to more temporally consistent results and is better equipped to
handle large motions. Firstly, we introduce Sketch-guided ControlNet which
provides additional control to finetune an image-to-video diffusion model for
controllable video synthesis, enabling the generation of animation videos
conditioned on lineart. We then propose Reference Attention to facilitate the
transfer of colors from the reference frame to other frames containing fast and
expansive motions. Finally, we present a novel scheme for sequential sampling,
incorporating the Overlapped Blending Module and Prev-Reference Attention, to
extend the video diffusion model beyond its original fixed-length limitation
for long video colorization. Both qualitative and quantitative results
demonstrate that our method significantly outperforms state-of-the-art
techniques in terms of frame and video quality, as well as temporal
consistency. Moreover, our method is capable of generating high-quality, long
temporal-consistent animation videos with large motions, which is not
achievable in previous works. Our code and model are available at
https://luckyhzt.github.io/lvcd.Summary
AI-Generated Summary