Mejorando la generación de fotogramas infinitos sin entrenamiento para videos largos consistentes

Resumen

Sin incurrir en una sobrecarga computacional significativa, la generación de videos largos sin entrenamiento tiene como objetivo permitir que los modelos fundacionales de generación de videos produzcan secuencias más extensas. Los marcos autorregresivos a nivel de fotograma, por ejemplo, FIFO-diffusion, ofrecen la ventaja de generar videos de longitud infinita con un consumo de memoria constante. Sin embargo, el desajuste entre el entrenamiento y la inferencia, junto con el desafío de mantener la consistencia a largo plazo, limita la utilización efectiva de los modelos fundacionales. Para mitigar estos problemas, proponemos MIGA, un método novedoso de generación de videos largos con fotogramas infinitos. En primer lugar, proponemos un mecanismo de alineación en dos etapas efectivo que reduce la brecha entre el entrenamiento y la inferencia al disminuir el intervalo de ruido excesivo alimentado al modelo. Luego, introducimos un innovador mecanismo dual de mejora de consistencia, donde el enfoque de autorreflexión corrige los primeros fotogramas de alto ruido y el enfoque de guía de fotogramas de largo alcance aprovecha los fotogramas posteriores de bajo ruido con una amplia cobertura para dirigir la generación, mejorando conjuntamente la consistencia temporal. Experimentos exhaustivos en VBench y NarrLV demuestran el rendimiento de vanguardia de MIGA. Nuestra página del proyecto está disponible en https://xiaokunfeng.github.io/miga_homepage/.

English

Without incurring significant computational overhead, train-free long video generation aims to enable foundation video generation models to produce longer videos. Frame-level autoregressive frameworks, e.g., FIFO-diffusion, offer the advantage of generating infinitely long videos with constant memory consumption. However, the mismatch between training and inference, coupled with the challenge of maintaining long-term consistency, limits the effective utilization of foundation models. To mitigate these concerns, we propose MIGA, a novel infinite-frame long video generation method. Firstly, we propose an effective two-stage alignment mechanism that mitigates the training-inference gap by reducing the excessive noise span fed to the model. We then introduce an innovative dual consistency enhancement mechanism, where the self-reflection approach corrects early high-noise frames and the long-range frame guidance approach leverages later low-noise frames with broad coverage to steer generation, jointly improving temporal consistency. Extensive experiments on VBench and NarrLV demonstrate the state-of-the-art performance of MIGA. Our project page is available at https://xiaokunfeng.github.io/miga_homepage/.