LVCD: Colorización de videos lineales basada en referencias con modelos de difusión
LVCD: Reference-based Lineart Video Colorization with Diffusion Models
September 19, 2024
Autores: Zhitong Huang, Mohan Zhang, Jing Liao
cs.AI
Resumen
Proponemos el primer marco de difusión de video para la colorización de videos de líneas de referencia. A diferencia de trabajos anteriores que se basan únicamente en modelos generativos de imágenes para colorear cuadro por cuadro las líneas de referencia, nuestro enfoque aprovecha un modelo de difusión de video preentrenado a gran escala para generar videos de animación colorizados. Este enfoque conduce a resultados más consistentes temporalmente y está mejor equipado para manejar grandes movimientos. En primer lugar, presentamos ControlNet guiado por bocetos, que proporciona un control adicional para refinar un modelo de difusión de imagen a video para síntesis de video controlable, lo que permite la generación de videos de animación condicionados a líneas de referencia. Luego, proponemos Atención de Referencia para facilitar la transferencia de colores del cuadro de referencia a otros cuadros que contienen movimientos rápidos y expansivos. Finalmente, presentamos un esquema novedoso para muestreo secuencial, que incorpora el Módulo de Mezcla Superpuesta y la Atención a la Referencia Anterior, para extender el modelo de difusión de video más allá de su limitación original de longitud fija para la colorización de videos largos. Tanto los resultados cualitativos como cuantitativos demuestran que nuestro método supera significativamente a las técnicas de vanguardia en cuanto a calidad de cuadro y video, así como consistencia temporal. Además, nuestro método es capaz de generar videos de animación de alta calidad y larga consistencia temporal con grandes movimientos, lo cual no era alcanzable en trabajos anteriores. Nuestro código y modelo están disponibles en https://luckyhzt.github.io/lvcd.
English
We propose the first video diffusion framework for reference-based lineart
video colorization. Unlike previous works that rely solely on image generative
models to colorize lineart frame by frame, our approach leverages a large-scale
pretrained video diffusion model to generate colorized animation videos. This
approach leads to more temporally consistent results and is better equipped to
handle large motions. Firstly, we introduce Sketch-guided ControlNet which
provides additional control to finetune an image-to-video diffusion model for
controllable video synthesis, enabling the generation of animation videos
conditioned on lineart. We then propose Reference Attention to facilitate the
transfer of colors from the reference frame to other frames containing fast and
expansive motions. Finally, we present a novel scheme for sequential sampling,
incorporating the Overlapped Blending Module and Prev-Reference Attention, to
extend the video diffusion model beyond its original fixed-length limitation
for long video colorization. Both qualitative and quantitative results
demonstrate that our method significantly outperforms state-of-the-art
techniques in terms of frame and video quality, as well as temporal
consistency. Moreover, our method is capable of generating high-quality, long
temporal-consistent animation videos with large motions, which is not
achievable in previous works. Our code and model are available at
https://luckyhzt.github.io/lvcd.Summary
AI-Generated Summary