Aprimorando a Geração de Quadros Infinitos sem Treinamento para Vídeos Longos Consistentes

Resumo

Sem incorrer em custo computacional significativo, a geração de vídeos longos sem treinamento visa capacitar modelos fundamentais de geração de vídeos a produzir vídeos mais longos. Arcabouços autorregressivos em nível de quadro, como o FIFO-diffusion, oferecem a vantagem de gerar vídeos infinitamente longos com consumo constante de memória. No entanto, a incompatibilidade entre treinamento e inferência, aliada ao desafio de manter a consistência de longo prazo, limita a utilização eficaz dos modelos fundamentais. Para mitigar essas preocupações, propomos o MIGA, um método inovador de geração de vídeos longos com quadros infinitos. Primeiramente, propomos um mecanismo de alinhamento em dois estágios que reduz a lacuna entre treinamento e inferência ao diminuir o intervalo excessivo de ruído alimentado ao modelo. Em seguida, introduzimos um mecanismo inovador de dupla melhoria de consistência, onde a abordagem de autorreflexão corrige quadros iniciais com alto ruído e a abordagem de orientação por quadros de longo alcance utiliza quadros posteriores com baixo ruído e ampla cobertura para direcionar a geração, melhorando conjuntamente a consistência temporal. Experimentos extensivos no VBench e no NarrLV demonstram o desempenho de ponta do MIGA. Nossa página do projeto está disponível em https://xiaokunfeng.github.io/miga_homepage/.

English

Without incurring significant computational overhead, train-free long video generation aims to enable foundation video generation models to produce longer videos. Frame-level autoregressive frameworks, e.g., FIFO-diffusion, offer the advantage of generating infinitely long videos with constant memory consumption. However, the mismatch between training and inference, coupled with the challenge of maintaining long-term consistency, limits the effective utilization of foundation models. To mitigate these concerns, we propose MIGA, a novel infinite-frame long video generation method. Firstly, we propose an effective two-stage alignment mechanism that mitigates the training-inference gap by reducing the excessive noise span fed to the model. We then introduce an innovative dual consistency enhancement mechanism, where the self-reflection approach corrects early high-noise frames and the long-range frame guidance approach leverages later low-noise frames with broad coverage to steer generation, jointly improving temporal consistency. Extensive experiments on VBench and NarrLV demonstrate the state-of-the-art performance of MIGA. Our project page is available at https://xiaokunfeng.github.io/miga_homepage/.