Snap Video : Transformateurs spatiotemporels à grande échelle pour la synthèse texte-vidéo
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
February 22, 2024
Auteurs: Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov
cs.AI
Résumé
Les modèles contemporains de génération d'images démontrent une qualité et une polyvalence remarquables. Séduite par ces avantages, la communauté de recherche les réutilise pour générer des vidéos. Étant donné que le contenu vidéo est hautement redondant, nous soutenons qu'adopter naïvement les avancées des modèles d'images dans le domaine de la génération vidéo réduit la fidélité du mouvement, la qualité visuelle et nuit à l'évolutivité. Dans ce travail, nous construisons Snap Video, un modèle axé sur la vidéo qui aborde systématiquement ces défis. Pour ce faire, nous étendons d'abord le cadre EDM pour prendre en compte les pixels redondants spatialement et temporellement, et soutenir naturellement la génération vidéo. Ensuite, nous montrons qu'un U-Net - un pilier derrière la génération d'images - évolue mal lors de la génération de vidéos, nécessitant une surcharge computationnelle significative. Par conséquent, nous proposons une nouvelle architecture basée sur des transformateurs qui s'entraîne 3,31 fois plus vite que les U-Nets (et est ~4,5 fois plus rapide lors de l'inférence). Cela nous permet d'entraîner efficacement un modèle texte-à-vidéo avec des milliards de paramètres pour la première fois, d'atteindre des résultats de pointe sur plusieurs benchmarks, et de générer des vidéos avec une qualité, une cohérence temporelle et une complexité de mouvement nettement supérieures. Les études utilisateurs ont montré que notre modèle était largement préféré par rapport aux méthodes les plus récentes. Consultez notre site web à l'adresse https://snap-research.github.io/snapvideo/.
English
Contemporary models for generating images show remarkable quality and
versatility. Swayed by these advantages, the research community repurposes them
to generate videos. Since video content is highly redundant, we argue that
naively bringing advances of image models to the video generation domain
reduces motion fidelity, visual quality and impairs scalability. In this work,
we build Snap Video, a video-first model that systematically addresses these
challenges. To do that, we first extend the EDM framework to take into account
spatially and temporally redundant pixels and naturally support video
generation. Second, we show that a U-Net - a workhorse behind image generation
- scales poorly when generating videos, requiring significant computational
overhead. Hence, we propose a new transformer-based architecture that trains
3.31 times faster than U-Nets (and is ~4.5 faster at inference). This allows us
to efficiently train a text-to-video model with billions of parameters for the
first time, reach state-of-the-art results on a number of benchmarks, and
generate videos with substantially higher quality, temporal consistency, and
motion complexity. The user studies showed that our model was favored by a
large margin over the most recent methods. See our website at
https://snap-research.github.io/snapvideo/.Summary
AI-Generated Summary