BroadWay: Verbeter uw tekst-naar-video generatiemodel op een trainingvrije manier.
BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way
October 8, 2024
Auteurs: Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
De tekst-naar-video (T2V) generatiemodellen, die handige visuele creatie bieden, hebben recentelijk steeds meer aandacht gekregen. Ondanks hun aanzienlijke potentieel kunnen de gegenereerde video's artefacten vertonen, waaronder structurele onwaarschijnlijkheid, temporele inconsistentie en een gebrek aan beweging, wat vaak resulteert in bijna stilstaande video's. In dit werk hebben we een correlatie geïdentificeerd tussen de discrepantie van temporele aandachtskaarten over verschillende blokken en het voorkomen van temporele inconsistenties. Daarnaast hebben we waargenomen dat de energie die aanwezig is in de temporele aandachtskaarten direct gerelateerd is aan de omvang van de bewegingsamplitude in de gegenereerde video's. Op basis van deze observaties presenteren we BroadWay, een trainingsvrije methode om de kwaliteit van tekst-naar-video generatie te verbeteren zonder extra parameters toe te voegen, geheugen uit te breiden of bemonsteringstijd te verhogen. Specifiek bestaat BroadWay uit twee hoofdonderdelen: 1) Temporele Zelfbegeleiding verbetert de structurele plausibiliteit en temporele consistentie van gegenereerde video's door de discrepantie tussen de temporele aandachtskaarten over verschillende decoderblokken te verminderen. 2) Bewegingsversterking op basis van Fourier verbetert de omvang en rijkdom van de beweging door de energie van de kaart te versterken. Uitgebreide experimenten tonen aan dat BroadWay aanzienlijke verbeteringen oplevert in de kwaliteit van tekst-naar-video generatie met verwaarloosbare extra kosten.
English
The text-to-video (T2V) generation models, offering convenient visual
creation, have recently garnered increasing attention. Despite their
substantial potential, the generated videos may present artifacts, including
structural implausibility, temporal inconsistency, and a lack of motion, often
resulting in near-static video. In this work, we have identified a correlation
between the disparity of temporal attention maps across different blocks and
the occurrence of temporal inconsistencies. Additionally, we have observed that
the energy contained within the temporal attention maps is directly related to
the magnitude of motion amplitude in the generated videos. Based on these
observations, we present BroadWay, a training-free method to improve the
quality of text-to-video generation without introducing additional parameters,
augmenting memory or sampling time. Specifically, BroadWay is composed of two
principal components: 1) Temporal Self-Guidance improves the structural
plausibility and temporal consistency of generated videos by reducing the
disparity between the temporal attention maps across various decoder blocks. 2)
Fourier-based Motion Enhancement enhances the magnitude and richness of motion
by amplifying the energy of the map. Extensive experiments demonstrate that
BroadWay significantly improves the quality of text-to-video generation with
negligible additional cost.Summary
AI-Generated Summary