BroadWay: Potencia tu modelo de generación de texto a video de una manera sin necesidad de entrenamiento
BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way
October 8, 2024
Autores: Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
Los modelos de generación texto-a-video (T2V), que ofrecen una creación visual conveniente, han ganado recientemente una atención creciente. A pesar de su potencial sustancial, los videos generados pueden presentar artefactos, incluyendo implausibilidad estructural, inconsistencia temporal y falta de movimiento, a menudo resultando en videos casi estáticos. En este trabajo, hemos identificado una correlación entre la disparidad de mapas de atención temporal en diferentes bloques y la presencia de inconsistencias temporales. Además, hemos observado que la energía contenida en los mapas de atención temporal está directamente relacionada con la magnitud de la amplitud del movimiento en los videos generados. Basándonos en estas observaciones, presentamos BroadWay, un método sin entrenamiento para mejorar la calidad de la generación texto-a-video sin introducir parámetros adicionales, aumentar la memoria o el tiempo de muestreo. Específicamente, BroadWay se compone de dos componentes principales: 1) Autoguía Temporal mejora la plausibilidad estructural y la consistencia temporal de los videos generados al reducir la disparidad entre los mapas de atención temporal en varios bloques decodificadores. 2) Mejora del Movimiento basada en Fourier aumenta la magnitud y riqueza del movimiento al amplificar la energía del mapa. Experimentos extensos demuestran que BroadWay mejora significativamente la calidad de la generación texto-a-video con un costo adicional insignificante.
English
The text-to-video (T2V) generation models, offering convenient visual
creation, have recently garnered increasing attention. Despite their
substantial potential, the generated videos may present artifacts, including
structural implausibility, temporal inconsistency, and a lack of motion, often
resulting in near-static video. In this work, we have identified a correlation
between the disparity of temporal attention maps across different blocks and
the occurrence of temporal inconsistencies. Additionally, we have observed that
the energy contained within the temporal attention maps is directly related to
the magnitude of motion amplitude in the generated videos. Based on these
observations, we present BroadWay, a training-free method to improve the
quality of text-to-video generation without introducing additional parameters,
augmenting memory or sampling time. Specifically, BroadWay is composed of two
principal components: 1) Temporal Self-Guidance improves the structural
plausibility and temporal consistency of generated videos by reducing the
disparity between the temporal attention maps across various decoder blocks. 2)
Fourier-based Motion Enhancement enhances the magnitude and richness of motion
by amplifying the energy of the map. Extensive experiments demonstrate that
BroadWay significantly improves the quality of text-to-video generation with
negligible additional cost.Summary
AI-Generated Summary