BroadWay: Potencia tu modelo de generación de texto a video de una manera sin necesidad de entrenamiento

Resumen

Los modelos de generación texto-a-video (T2V), que ofrecen una creación visual conveniente, han ganado recientemente una atención creciente. A pesar de su potencial sustancial, los videos generados pueden presentar artefactos, incluyendo implausibilidad estructural, inconsistencia temporal y falta de movimiento, a menudo resultando en videos casi estáticos. En este trabajo, hemos identificado una correlación entre la disparidad de mapas de atención temporal en diferentes bloques y la presencia de inconsistencias temporales. Además, hemos observado que la energía contenida en los mapas de atención temporal está directamente relacionada con la magnitud de la amplitud del movimiento en los videos generados. Basándonos en estas observaciones, presentamos BroadWay, un método sin entrenamiento para mejorar la calidad de la generación texto-a-video sin introducir parámetros adicionales, aumentar la memoria o el tiempo de muestreo. Específicamente, BroadWay se compone de dos componentes principales: 1) Autoguía Temporal mejora la plausibilidad estructural y la consistencia temporal de los videos generados al reducir la disparidad entre los mapas de atención temporal en varios bloques decodificadores. 2) Mejora del Movimiento basada en Fourier aumenta la magnitud y riqueza del movimiento al amplificar la energía del mapa. Experimentos extensos demuestran que BroadWay mejora significativamente la calidad de la generación texto-a-video con un costo adicional insignificante.

English

The text-to-video (T2V) generation models, offering convenient visual creation, have recently garnered increasing attention. Despite their substantial potential, the generated videos may present artifacts, including structural implausibility, temporal inconsistency, and a lack of motion, often resulting in near-static video. In this work, we have identified a correlation between the disparity of temporal attention maps across different blocks and the occurrence of temporal inconsistencies. Additionally, we have observed that the energy contained within the temporal attention maps is directly related to the magnitude of motion amplitude in the generated videos. Based on these observations, we present BroadWay, a training-free method to improve the quality of text-to-video generation without introducing additional parameters, augmenting memory or sampling time. Specifically, BroadWay is composed of two principal components: 1) Temporal Self-Guidance improves the structural plausibility and temporal consistency of generated videos by reducing the disparity between the temporal attention maps across various decoder blocks. 2) Fourier-based Motion Enhancement enhances the magnitude and richness of motion by amplifying the energy of the map. Extensive experiments demonstrate that BroadWay significantly improves the quality of text-to-video generation with negligible additional cost.

BroadWay: Potencia tu modelo de generación de texto a video de una manera sin necesidad de entrenamiento

BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way

Resumen

Support