Preserve Sua Própria Correlação: Um Prior de Ruído para Modelos de Difusão de Vídeo

Resumo

Apesar dos avanços significativos na geração de imagens de alta qualidade usando modelos de difusão, a síntese de uma sequência de quadros animados que sejam tanto foto-realistas quanto temporalmente coerentes ainda está em seus estágios iniciais. Embora conjuntos de dados de bilhões de imagens estejam disponíveis para geração de imagens, a coleta de dados de vídeo em escala semelhante ainda é um desafio. Além disso, treinar um modelo de difusão de vídeo é computacionalmente muito mais caro do que sua contraparte de imagem. Neste trabalho, exploramos o ajuste fino de um modelo de difusão de imagem pré-treinado com dados de vídeo como uma solução prática para a tarefa de síntese de vídeo. Descobrimos que a extensão ingênua do ruído de imagem para o ruído de vídeo na difusão de vídeo leva a um desempenho subótimo. Nosso ruído de vídeo cuidadosamente projetado resulta em um desempenho substancialmente melhor. A validação experimental extensa mostra que nosso modelo, Preserve Your Own Correlation (PYoCo), atinge resultados state-of-the-art (SOTA) em zero-shot de texto para vídeo nos benchmarks UCF-101 e MSR-VTT. Ele também alcança a qualidade de geração de vídeo SOTA no benchmark de pequena escala UCF-101 com um modelo 10 vezes menor, usando significativamente menos computação do que o estado da arte anterior.

English

Despite tremendous progress in generating high-quality images using diffusion models, synthesizing a sequence of animated frames that are both photorealistic and temporally coherent is still in its infancy. While off-the-shelf billion-scale datasets for image generation are available, collecting similar video data of the same scale is still challenging. Also, training a video diffusion model is computationally much more expensive than its image counterpart. In this work, we explore finetuning a pretrained image diffusion model with video data as a practical solution for the video synthesis task. We find that naively extending the image noise prior to video noise prior in video diffusion leads to sub-optimal performance. Our carefully designed video noise prior leads to substantially better performance. Extensive experimental validation shows that our model, Preserve Your Own Correlation (PYoCo), attains SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It also achieves SOTA video generation quality on the small-scale UCF-101 benchmark with a 10times smaller model using significantly less computation than the prior art.

Preserve Sua Própria Correlação: Um Prior de Ruído para Modelos de Difusão de Vídeo

Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models

Resumo

Support