BroadWay: Verbeter uw tekst-naar-video generatiemodel op een trainingvrije manier.

Samenvatting

De tekst-naar-video (T2V) generatiemodellen, die handige visuele creatie bieden, hebben recentelijk steeds meer aandacht gekregen. Ondanks hun aanzienlijke potentieel kunnen de gegenereerde video's artefacten vertonen, waaronder structurele onwaarschijnlijkheid, temporele inconsistentie en een gebrek aan beweging, wat vaak resulteert in bijna stilstaande video's. In dit werk hebben we een correlatie geïdentificeerd tussen de discrepantie van temporele aandachtskaarten over verschillende blokken en het voorkomen van temporele inconsistenties. Daarnaast hebben we waargenomen dat de energie die aanwezig is in de temporele aandachtskaarten direct gerelateerd is aan de omvang van de bewegingsamplitude in de gegenereerde video's. Op basis van deze observaties presenteren we BroadWay, een trainingsvrije methode om de kwaliteit van tekst-naar-video generatie te verbeteren zonder extra parameters toe te voegen, geheugen uit te breiden of bemonsteringstijd te verhogen. Specifiek bestaat BroadWay uit twee hoofdonderdelen: 1) Temporele Zelfbegeleiding verbetert de structurele plausibiliteit en temporele consistentie van gegenereerde video's door de discrepantie tussen de temporele aandachtskaarten over verschillende decoderblokken te verminderen. 2) Bewegingsversterking op basis van Fourier verbetert de omvang en rijkdom van de beweging door de energie van de kaart te versterken. Uitgebreide experimenten tonen aan dat BroadWay aanzienlijke verbeteringen oplevert in de kwaliteit van tekst-naar-video generatie met verwaarloosbare extra kosten.

English

The text-to-video (T2V) generation models, offering convenient visual creation, have recently garnered increasing attention. Despite their substantial potential, the generated videos may present artifacts, including structural implausibility, temporal inconsistency, and a lack of motion, often resulting in near-static video. In this work, we have identified a correlation between the disparity of temporal attention maps across different blocks and the occurrence of temporal inconsistencies. Additionally, we have observed that the energy contained within the temporal attention maps is directly related to the magnitude of motion amplitude in the generated videos. Based on these observations, we present BroadWay, a training-free method to improve the quality of text-to-video generation without introducing additional parameters, augmenting memory or sampling time. Specifically, BroadWay is composed of two principal components: 1) Temporal Self-Guidance improves the structural plausibility and temporal consistency of generated videos by reducing the disparity between the temporal attention maps across various decoder blocks. 2) Fourier-based Motion Enhancement enhances the magnitude and richness of motion by amplifying the energy of the map. Extensive experiments demonstrate that BroadWay significantly improves the quality of text-to-video generation with negligible additional cost.

BroadWay: Verbeter uw tekst-naar-video generatiemodel op een trainingvrije manier.

BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way

Samenvatting

Support