Тонкая нулевая выборка видео без обучения

Аннотация

Внедрение временного измерения в предварительно обученные модели диффузии изображений для генерации видео является распространенным подходом. Однако этот метод требует значительных вычислительных ресурсов и больших наборов видеоданных. Более того, гетерогенность между наборами данных изображений и видео часто приводит к катастрофическому забыванию экспертизы изображений. Недавние попытки напрямую извлечь видеофрагменты из моделей диффузии изображений в некоторой степени смягчили эти проблемы. Тем не менее, эти методы могут генерировать только краткие видеоролики с простыми движениями и не способны улавливать мелкозернистое движение или деформацию, не соответствующую сетке. В данной статье мы предлагаем новый алгоритм Zero-Shot видео-сэмплирования, обозначенный как ZS^2, способный напрямую сэмплировать качественные видеоролики из существующих методов синтеза изображений, таких как Stable Diffusion, без какого-либо обучения или оптимизации. Конкретно, ZS^2 использует модель шума зависимости и внимание на временной импульс для обеспечения согласованности контента и анимационной согласованности соответственно. Эта способность позволяет ему выделяться в связанных задачах, таких как условная и контекстно-специализированная генерация видео и редактирование видео по инструкциям. Экспериментальные результаты показывают, что ZS^2 достигает передового уровня производительности в генерации видео с нулевым обучением, иногда превосходя недавние методы с учителем. Домашняя страница: https://densechen.github.io/zss/.

English

Incorporating a temporal dimension into pretrained image diffusion models for video generation is a prevalent approach. However, this method is computationally demanding and necessitates large-scale video datasets. More critically, the heterogeneity between image and video datasets often results in catastrophic forgetting of the image expertise. Recent attempts to directly extract video snippets from image diffusion models have somewhat mitigated these problems. Nevertheless, these methods can only generate brief video clips with simple movements and fail to capture fine-grained motion or non-grid deformation. In this paper, we propose a novel Zero-Shot video Sampling algorithm, denoted as ZS^2, capable of directly sampling high-quality video clips from existing image synthesis methods, such as Stable Diffusion, without any training or optimization. Specifically, ZS^2 utilizes the dependency noise model and temporal momentum attention to ensure content consistency and animation coherence, respectively. This ability enables it to excel in related tasks, such as conditional and context-specialized video generation and instruction-guided video editing. Experimental results demonstrate that ZS^2 achieves state-of-the-art performance in zero-shot video generation, occasionally outperforming recent supervised methods. Homepage: https://densechen.github.io/zss/.

Тонкая нулевая выборка видео без обучения

Fine-gained Zero-shot Video Sampling

Аннотация

Support