FIFO-Диффузия: Генерация бесконечных видео из текста без обученияFIFO-Diffusion: Generating Infinite Videos from Text without Training
Мы предлагаем новый метод вывода, основанный на предварительно обученной модели диффузии для генерации видео с учетом текста. Наш подход, названный FIFO-Diffusion, концептуально способен генерировать бесконечно длинные видео без обучения. Это достигается путем итеративного выполнения диагональной денойзинга, который одновременно обрабатывает серию последовательных кадров с увеличением уровня шума в очереди; наш метод извлекает полностью денойзингированный кадр в начале, в то время как добавляет новый случайный шумовой кадр в конец. Однако диагональный денойзинг - это меч с двумя лезвиями, так как кадры около конца могут воспользоваться более чистыми кадрами посредством прямой ссылки, но такая стратегия вызывает расхождение между обучением и выводом. Поэтому мы вводим разделение латентных переменных для уменьшения разрыва между обучением и выводом, а также денойзинг с просмотром вперед для использования преимуществ прямой ссылки. Мы продемонстрировали многообещающие результаты и эффективность предложенных методов на существующих базовых моделях генерации видео по тексту.