Snap Video: Transformadores Espaciotemporais Escalonados para Síntese de Texto para Vídeo
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
February 22, 2024
Autores: Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov
cs.AI
Resumo
Os modelos contemporâneos para geração de imagens demonstram qualidade e versatilidade notáveis. Influenciados por essas vantagens, a comunidade de pesquisa os adapta para gerar vídeos. Como o conteúdo de vídeo é altamente redundante, argumentamos que a aplicação ingênua dos avanços dos modelos de imagem ao domínio da geração de vídeos reduz a fidelidade do movimento, a qualidade visual e prejudica a escalabilidade. Neste trabalho, desenvolvemos o Snap Video, um modelo voltado prioritariamente para vídeos que aborda sistematicamente esses desafios. Para isso, primeiro estendemos o framework EDM para levar em consideração pixels redundantes espacial e temporalmente, suportando naturalmente a geração de vídeos. Em segundo lugar, mostramos que uma U-Net — uma ferramenta essencial por trás da geração de imagens — escala de forma inadequada ao gerar vídeos, exigindo um custo computacional significativo. Portanto, propomos uma nova arquitetura baseada em transformers que treina 3,31 vezes mais rápido que as U-Nets (e é ~4,5 vezes mais rápida na inferência). Isso nos permite treinar de forma eficiente um modelo de texto para vídeo com bilhões de parâmetros pela primeira vez, alcançando resultados de ponta em diversos benchmarks e gerando vídeos com qualidade substancialmente maior, consistência temporal e complexidade de movimento. Os estudos com usuários mostraram que nosso modelo foi preferido por uma grande margem em relação aos métodos mais recentes. Consulte nosso site em https://snap-research.github.io/snapvideo/.
English
Contemporary models for generating images show remarkable quality and
versatility. Swayed by these advantages, the research community repurposes them
to generate videos. Since video content is highly redundant, we argue that
naively bringing advances of image models to the video generation domain
reduces motion fidelity, visual quality and impairs scalability. In this work,
we build Snap Video, a video-first model that systematically addresses these
challenges. To do that, we first extend the EDM framework to take into account
spatially and temporally redundant pixels and naturally support video
generation. Second, we show that a U-Net - a workhorse behind image generation
- scales poorly when generating videos, requiring significant computational
overhead. Hence, we propose a new transformer-based architecture that trains
3.31 times faster than U-Nets (and is ~4.5 faster at inference). This allows us
to efficiently train a text-to-video model with billions of parameters for the
first time, reach state-of-the-art results on a number of benchmarks, and
generate videos with substantially higher quality, temporal consistency, and
motion complexity. The user studies showed that our model was favored by a
large margin over the most recent methods. See our website at
https://snap-research.github.io/snapvideo/.