ChatPaper.aiChatPaper

Generación de videos largos sin entrenamiento con el modelo de difusión en cadena.

Training-free Long Video Generation with Chain of Diffusion Model Experts

August 24, 2024
Autores: Wenhao Li, Yichao Cao, Xie Su, Xi Lin, Shan You, Mingkai Zheng, Yi Chen, Chang Xu
cs.AI

Resumen

Los modelos de generación de video tienen un gran potencial en áreas como la producción cinematográfica. Sin embargo, los modelos actuales de difusión de video requieren altos costos computacionales y producen resultados subóptimos debido a la alta complejidad de la tarea de generación de video. En este documento, proponemos ConFiner, un marco eficiente de alta calidad para la generación de video que desacopla la generación de video en tareas más simples: control de estructura y refinamiento espacio-temporal. Puede generar videos de alta calidad con una cadena de expertos en modelos de difusión listos para usar, siendo cada experto responsable de una tarea subacoplada. Durante el refinamiento, introducimos el denoising coordinado, que puede fusionar las capacidades de múltiples expertos en difusión en una sola muestra. Además, diseñamos el marco ConFiner-Long, que puede generar videos largos coherentes con tres estrategias de restricción en ConFiner. Los resultados experimentales indican que con solo el 10\% del costo de inferencia, nuestro ConFiner supera a modelos representativos como Lavie y Modelscope en todas las métricas objetivas y subjetivas. Y ConFiner-Long puede generar videos de alta calidad y coherentes con hasta 600 fotogramas.
English
Video generation models hold substantial potential in areas such as filmmaking. However, current video diffusion models need high computational costs and produce suboptimal results due to high complexity of video generation task. In this paper, we propose ConFiner, an efficient high-quality video generation framework that decouples video generation into easier subtasks: structure control and spatial-temporal refinement. It can generate high-quality videos with chain of off-the-shelf diffusion model experts, each expert responsible for a decoupled subtask. During the refinement, we introduce coordinated denoising, which can merge multiple diffusion experts' capabilities into a single sampling. Furthermore, we design ConFiner-Long framework, which can generate long coherent video with three constraint strategies on ConFiner. Experimental results indicate that with only 10\% of the inference cost, our ConFiner surpasses representative models like Lavie and Modelscope across all objective and subjective metrics. And ConFiner-Long can generate high-quality and coherent videos with up to 600 frames.

Summary

AI-Generated Summary

PDF242November 16, 2024