Grote bewegingsvideo-auto-encoder met crossmodale video-VAE.
Large Motion Video Autoencoding with Cross-modal Video VAE
December 23, 2024
Auteurs: Yazhou Xing, Yang Fei, Yingqing He, Jingye Chen, Jiaxin Xie, Xiaowei Chi, Qifeng Chen
cs.AI
Samenvatting
Het leren van een robuuste video-variational auto-encoder (VAE) is essentieel voor het verminderen van video redundantie en het vergemakkelijken van efficiënte videogeneratie. Het rechtstreeks toepassen van beeld-VAE's op individuele frames geïsoleerd kan leiden tot temporale inconsistenties en suboptimale compressiesnelheden als gevolg van een gebrek aan temporale compressie. Bestaande video-VAE's zijn begonnen met het aanpakken van temporale compressie; echter, ze lijden vaak aan ontoereikende reconstructieprestaties. In dit artikel presenteren we een nieuw en krachtig video-auto-encoder die in staat is tot hoogwaardige video-encoding. Ten eerste observeren we dat het verstrengelen van ruimtelijke en temporale compressie door eenvoudigweg de beeld-VAE uit te breiden naar een 3D-VAE bewegingsonscherpte en detailvervormingsartefacten kan introduceren. Daarom stellen we temporale-gevoelige ruimtelijke compressie voor om de ruimtelijke informatie beter te encoderen en decoderen. Daarnaast integreren we een lichtgewicht bewegingscompressiemodel voor verdere temporale compressie. Ten tweede stellen we voor om te profiteren van de tekstuele informatie die inherent is aan tekst-naar-video datasets en tekstbegeleiding in ons model op te nemen. Dit verbetert aanzienlijk de reconstructiekwaliteit, met name op het gebied van detailbehoud en temporale stabiliteit. Ten derde verbeteren we de veelzijdigheid van ons model verder door gezamenlijke training op zowel beelden als video's, wat niet alleen de reconstructiekwaliteit verbetert maar ook het model in staat stelt zowel beeld- als video-auto-encoding uit te voeren. Uitgebreide evaluaties tegen sterke recente baselines tonen de superieure prestaties van onze methode aan. De projectwebsite is te vinden op https://yzxing87.github.io/vae/.
English
Learning a robust video Variational Autoencoder (VAE) is essential for
reducing video redundancy and facilitating efficient video generation. Directly
applying image VAEs to individual frames in isolation can result in temporal
inconsistencies and suboptimal compression rates due to a lack of temporal
compression. Existing Video VAEs have begun to address temporal compression;
however, they often suffer from inadequate reconstruction performance. In this
paper, we present a novel and powerful video autoencoder capable of
high-fidelity video encoding. First, we observe that entangling spatial and
temporal compression by merely extending the image VAE to a 3D VAE can
introduce motion blur and detail distortion artifacts. Thus, we propose
temporal-aware spatial compression to better encode and decode the spatial
information. Additionally, we integrate a lightweight motion compression model
for further temporal compression. Second, we propose to leverage the textual
information inherent in text-to-video datasets and incorporate text guidance
into our model. This significantly enhances reconstruction quality,
particularly in terms of detail preservation and temporal stability. Third, we
further improve the versatility of our model through joint training on both
images and videos, which not only enhances reconstruction quality but also
enables the model to perform both image and video autoencoding. Extensive
evaluations against strong recent baselines demonstrate the superior
performance of our method. The project website can be found
at~https://yzxing87.github.io/vae/{https://yzxing87.github.io/vae/}.