ChatPaper.aiChatPaper

FIFO-Диффузия: Генерация бесконечных видео из текста без обучения

FIFO-Diffusion: Generating Infinite Videos from Text without Training

May 19, 2024
Авторы: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI

Аннотация

Мы предлагаем новый метод вывода, основанный на предварительно обученной модели диффузии для генерации видео с учетом текста. Наш подход, названный FIFO-Diffusion, концептуально способен генерировать бесконечно длинные видео без обучения. Это достигается путем итеративного выполнения диагональной денойзинга, который одновременно обрабатывает серию последовательных кадров с увеличением уровня шума в очереди; наш метод извлекает полностью денойзингированный кадр в начале, в то время как добавляет новый случайный шумовой кадр в конец. Однако диагональный денойзинг - это меч с двумя лезвиями, так как кадры около конца могут воспользоваться более чистыми кадрами посредством прямой ссылки, но такая стратегия вызывает расхождение между обучением и выводом. Поэтому мы вводим разделение латентных переменных для уменьшения разрыва между обучением и выводом, а также денойзинг с просмотром вперед для использования преимуществ прямой ссылки. Мы продемонстрировали многообещающие результаты и эффективность предложенных методов на существующих базовых моделях генерации видео по тексту.
English
We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines.

Summary

AI-Generated Summary

PDF588December 15, 2024