Тонкая нулевая выборка видео без обучения
Fine-gained Zero-shot Video Sampling
July 31, 2024
Авторы: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
cs.AI
Аннотация
Внедрение временного измерения в предварительно обученные модели диффузии изображений для генерации видео является распространенным подходом. Однако этот метод требует значительных вычислительных ресурсов и больших наборов видеоданных. Более того, гетерогенность между наборами данных изображений и видео часто приводит к катастрофическому забыванию экспертизы изображений. Недавние попытки напрямую извлечь видеофрагменты из моделей диффузии изображений в некоторой степени смягчили эти проблемы. Тем не менее, эти методы могут генерировать только краткие видеоролики с простыми движениями и не способны улавливать мелкозернистое движение или деформацию, не соответствующую сетке. В данной статье мы предлагаем новый алгоритм Zero-Shot видео-сэмплирования, обозначенный как ZS^2, способный напрямую сэмплировать качественные видеоролики из существующих методов синтеза изображений, таких как Stable Diffusion, без какого-либо обучения или оптимизации. Конкретно, ZS^2 использует модель шума зависимости и внимание на временной импульс для обеспечения согласованности контента и анимационной согласованности соответственно. Эта способность позволяет ему выделяться в связанных задачах, таких как условная и контекстно-специализированная генерация видео и редактирование видео по инструкциям. Экспериментальные результаты показывают, что ZS^2 достигает передового уровня производительности в генерации видео с нулевым обучением, иногда превосходя недавние методы с учителем.
Домашняя страница: https://densechen.github.io/zss/.
English
Incorporating a temporal dimension into pretrained image diffusion models for
video generation is a prevalent approach. However, this method is
computationally demanding and necessitates large-scale video datasets. More
critically, the heterogeneity between image and video datasets often results in
catastrophic forgetting of the image expertise. Recent attempts to directly
extract video snippets from image diffusion models have somewhat mitigated
these problems. Nevertheless, these methods can only generate brief video clips
with simple movements and fail to capture fine-grained motion or non-grid
deformation. In this paper, we propose a novel Zero-Shot video Sampling
algorithm, denoted as ZS^2, capable of directly sampling
high-quality video clips from existing image synthesis methods, such as Stable
Diffusion, without any training or optimization. Specifically, ZS^2
utilizes the dependency noise model and temporal momentum attention to ensure
content consistency and animation coherence, respectively. This ability enables
it to excel in related tasks, such as conditional and context-specialized video
generation and instruction-guided video editing. Experimental results
demonstrate that ZS^2 achieves state-of-the-art performance in
zero-shot video generation, occasionally outperforming recent supervised
methods.
Homepage: https://densechen.github.io/zss/.