ChatPaper.aiChatPaper

Red de Difusión de Doble Flujo para la Generación de Texto a Video

Dual-Stream Diffusion Net for Text-to-Video Generation

August 16, 2023
Autores: Binhui Liu, Xin Liu, Anbo Dai, Zhiyong Zeng, Zhen Cui, Jian Yang
cs.AI

Resumen

Con el surgimiento de los modelos de difusión, recientemente, la generación de texto a video ha captado una atención creciente. Sin embargo, un cuello de botella importante es que los videos generados suelen presentar parpadeos y artefactos. En este trabajo, proponemos una red de difusión de doble flujo (DSDN, por sus siglas en inglés) para mejorar la consistencia de las variaciones de contenido en la generación de videos. En particular, los dos flujos de difusión diseñados, las ramas de contenido de video y movimiento, no solo pueden operar por separado en sus espacios privados para producir variaciones de video personalizadas y contenido, sino que también pueden alinearse adecuadamente entre los dominios de contenido y movimiento mediante el uso de nuestro módulo de interacción de transformadores cruzados, lo que beneficiaría la suavidad de los videos generados. Además, también introducimos un descomponedor y combinador de movimiento para facilitar la manipulación del movimiento en los videos. Los experimentos cualitativos y cuantitativos demuestran que nuestro método puede producir videos continuos asombrosos con menos parpadeos.
English
With the emerging diffusion models, recently, text-to-video generation has aroused increasing attention. But an important bottleneck therein is that generative videos often tend to carry some flickers and artifacts. In this work, we propose a dual-stream diffusion net (DSDN) to improve the consistency of content variations in generating videos. In particular, the designed two diffusion streams, video content and motion branches, could not only run separately in their private spaces for producing personalized video variations as well as content, but also be well-aligned between the content and motion domains through leveraging our designed cross-transformer interaction module, which would benefit the smoothness of generated videos. Besides, we also introduce motion decomposer and combiner to faciliate the operation on video motion. Qualitative and quantitative experiments demonstrate that our method could produce amazing continuous videos with fewer flickers.
PDF243December 15, 2024