ChatPaper.aiChatPaper

LVCD: Colorización de videos lineales basada en referencias con modelos de difusión

LVCD: Reference-based Lineart Video Colorization with Diffusion Models

September 19, 2024
Autores: Zhitong Huang, Mohan Zhang, Jing Liao
cs.AI

Resumen

Proponemos el primer marco de difusión de video para la colorización de videos de líneas de referencia. A diferencia de trabajos anteriores que se basan únicamente en modelos generativos de imágenes para colorear cuadro por cuadro las líneas de referencia, nuestro enfoque aprovecha un modelo de difusión de video preentrenado a gran escala para generar videos de animación colorizados. Este enfoque conduce a resultados más consistentes temporalmente y está mejor equipado para manejar grandes movimientos. En primer lugar, presentamos ControlNet guiado por bocetos, que proporciona un control adicional para refinar un modelo de difusión de imagen a video para síntesis de video controlable, lo que permite la generación de videos de animación condicionados a líneas de referencia. Luego, proponemos Atención de Referencia para facilitar la transferencia de colores del cuadro de referencia a otros cuadros que contienen movimientos rápidos y expansivos. Finalmente, presentamos un esquema novedoso para muestreo secuencial, que incorpora el Módulo de Mezcla Superpuesta y la Atención a la Referencia Anterior, para extender el modelo de difusión de video más allá de su limitación original de longitud fija para la colorización de videos largos. Tanto los resultados cualitativos como cuantitativos demuestran que nuestro método supera significativamente a las técnicas de vanguardia en cuanto a calidad de cuadro y video, así como consistencia temporal. Además, nuestro método es capaz de generar videos de animación de alta calidad y larga consistencia temporal con grandes movimientos, lo cual no era alcanzable en trabajos anteriores. Nuestro código y modelo están disponibles en https://luckyhzt.github.io/lvcd.
English
We propose the first video diffusion framework for reference-based lineart video colorization. Unlike previous works that rely solely on image generative models to colorize lineart frame by frame, our approach leverages a large-scale pretrained video diffusion model to generate colorized animation videos. This approach leads to more temporally consistent results and is better equipped to handle large motions. Firstly, we introduce Sketch-guided ControlNet which provides additional control to finetune an image-to-video diffusion model for controllable video synthesis, enabling the generation of animation videos conditioned on lineart. We then propose Reference Attention to facilitate the transfer of colors from the reference frame to other frames containing fast and expansive motions. Finally, we present a novel scheme for sequential sampling, incorporating the Overlapped Blending Module and Prev-Reference Attention, to extend the video diffusion model beyond its original fixed-length limitation for long video colorization. Both qualitative and quantitative results demonstrate that our method significantly outperforms state-of-the-art techniques in terms of frame and video quality, as well as temporal consistency. Moreover, our method is capable of generating high-quality, long temporal-consistent animation videos with large motions, which is not achievable in previous works. Our code and model are available at https://luckyhzt.github.io/lvcd.

Summary

AI-Generated Summary

PDF257November 16, 2024