Улучшение генерации бесконечных кадров без обучения для согласованных длинных видео

Аннотация

Без значительных вычислительных затрат метод генерации длинных видео без обучения направлен на то, чтобы базовые модели генерации видео могли создавать более длинные видеоролики. Кадровые авторегрессионные архитектуры, такие как FIFO-diffusion, обладают преимуществом генерации бесконечно длинных видео с постоянным потреблением памяти. Однако несоответствие между обучением и инференсом, а также сложность поддержания долгосрочной согласованности ограничивают эффективное использование базовых моделей. Для решения этих проблем мы предлагаем MIGA — новый метод генерации бесконечно длинных видео. Во-первых, мы предлагаем эффективный двухэтапный механизм выравнивания, который уменьшает разрыв между обучением и инференсом за счёт сокращения избыточного шумового интервала, подаваемого на модель. Затем мы вводим инновационный механизм двойного повышения согласованности, где метод саморефлексии корректирует ранние кадры с высоким уровнем шума, а метод долгосрочного кадрового направления использует поздние кадры с низким уровнем шума и широким охватом для управления генерацией, совместно улучшая временную согласованность. Обширные эксперименты на VBench и NarrLV демонстрируют передовую производительность MIGA. Страница нашего проекта доступна по адресу https://xiaokunfeng.github.io/miga_homepage/.

English

Without incurring significant computational overhead, train-free long video generation aims to enable foundation video generation models to produce longer videos. Frame-level autoregressive frameworks, e.g., FIFO-diffusion, offer the advantage of generating infinitely long videos with constant memory consumption. However, the mismatch between training and inference, coupled with the challenge of maintaining long-term consistency, limits the effective utilization of foundation models. To mitigate these concerns, we propose MIGA, a novel infinite-frame long video generation method. Firstly, we propose an effective two-stage alignment mechanism that mitigates the training-inference gap by reducing the excessive noise span fed to the model. We then introduce an innovative dual consistency enhancement mechanism, where the self-reflection approach corrects early high-noise frames and the long-range frame guidance approach leverages later low-noise frames with broad coverage to steer generation, jointly improving temporal consistency. Extensive experiments on VBench and NarrLV demonstrate the state-of-the-art performance of MIGA. Our project page is available at https://xiaokunfeng.github.io/miga_homepage/.