Amélioration de la génération de trames infinies sans entraînement pour des vidéos longues cohérentes

Résumé

Sans engendrer de surcharge de calcul significative, la génération de vidéos longues sans entraînement vise à permettre aux modèles fondamentaux de génération vidéo de produire des séquences plus longues. Les cadres autorégressifs au niveau des trames, tels que FIFO-diffusion, présentent l'avantage de générer des vidéos infiniment longues avec une consommation mémoire constante. Cependant, le décalage entre l'entraînement et l'inférence, associé au défi du maintien de la cohérence à long terme, limite l'utilisation efficace des modèles fondamentaux. Pour atténuer ces problèmes, nous proposons MIGA, une nouvelle méthode de génération de vidéos longues à trames infinies. Premièrement, nous proposons un mécanisme d'alignement en deux étapes efficace qui réduit l'écart entre l'entraînement et l'inférence en diminuant l'étendue excessive de bruit fournie au modèle. Nous introduisons ensuite un mécanisme innovant de double renforcement de la cohérence, où l'approche d'auto-réflexion corrige les premières trames à fort bruit et l'approche de guidage par trames à longue portée exploite les dernières trames à faible bruit avec une large couverture pour orienter la génération, améliorant conjointement la cohérence temporelle. Des expériences approfondies sur VBench et NarrLV démontrent les performances de pointe de MIGA. Notre page de projet est disponible à l'adresse https://xiaokunfeng.github.io/miga_homepage/.

English

Without incurring significant computational overhead, train-free long video generation aims to enable foundation video generation models to produce longer videos. Frame-level autoregressive frameworks, e.g., FIFO-diffusion, offer the advantage of generating infinitely long videos with constant memory consumption. However, the mismatch between training and inference, coupled with the challenge of maintaining long-term consistency, limits the effective utilization of foundation models. To mitigate these concerns, we propose MIGA, a novel infinite-frame long video generation method. Firstly, we propose an effective two-stage alignment mechanism that mitigates the training-inference gap by reducing the excessive noise span fed to the model. We then introduce an innovative dual consistency enhancement mechanism, where the self-reflection approach corrects early high-noise frames and the long-range frame guidance approach leverages later low-noise frames with broad coverage to steer generation, jointly improving temporal consistency. Extensive experiments on VBench and NarrLV demonstrate the state-of-the-art performance of MIGA. Our project page is available at https://xiaokunfeng.github.io/miga_homepage/.