Flowception: Correspondência de Fluxo Temporalmente Expansiva para Geração de Vídeo

Resumo

Apresentamos o Flowception, uma nova estrutura de geração de vídeo não autorregressiva e de comprimento variável. O Flowception aprende um caminho de probabilidade que intercala inserções discretas de frames com a remoção de ruído contínua de frames. Em comparação com métodos autorregressivos, o Flowception atenua o acúmulo/desvio de erros, uma vez que o mecanismo de inserção de frames durante a amostragem funciona como um mecanismo de compressão eficiente para lidar com contexto de longo prazo. Comparado aos fluxos de sequência completa, nosso método reduz os FLOPS de treinamento em três vezes, sendo também mais adequado para variantes de atenção local e permitindo aprender o comprimento dos vídeos em conjunto com seu conteúdo. Resultados experimentais quantitativos mostram métricas FVD e VBench melhoradas em relação às linhas de base autorregressivas e de sequência completa, o que é validado por resultados qualitativos. Por fim, ao aprender a inserir e remover ruído de frames em uma sequência, o Flowception integra perfeitamente diferentes tarefas, como geração de imagem para vídeo e interpolação de vídeo.

English

We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.