ChatPaper.aiChatPaper

ConsistI2V: Aprimorando a Consistência Visual na Geração de Vídeo a partir de Imagem

ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation

February 6, 2024
Autores: Weiming Ren, Harry Yang, Ge Zhang, Cong Wei, Xinrun Du, Stephen Huang, Wenhu Chen
cs.AI

Resumo

A geração de imagem para vídeo (I2V) tem como objetivo utilizar o quadro inicial (juntamente com um prompt de texto) para criar uma sequência de vídeo. Um grande desafio na geração I2V é manter a consistência visual ao longo do vídeo: os métodos existentes frequentemente lutam para preservar a integridade do sujeito, do fundo e do estilo do primeiro quadro, além de garantir uma progressão fluida e lógica na narrativa do vídeo. Para mitigar esses problemas, propomos o ConsistI2V, um método baseado em difusão para aprimorar a consistência visual na geração I2V. Especificamente, introduzimos (1) atenção espaço-temporal sobre o primeiro quadro para manter a consistência espacial e de movimento, e (2) inicialização de ruído a partir da banda de baixa frequência do primeiro quadro para melhorar a consistência do layout. Essas duas abordagens permitem que o ConsistI2V gere vídeos altamente consistentes. Também estendemos as abordagens propostas para mostrar seu potencial em melhorar a consistência na geração de vídeos longos autorregressivos e no controle de movimento da câmera. Para verificar a eficácia do nosso método, propomos o I2V-Bench, um benchmark abrangente de avaliação para geração I2V. Nossos resultados de avaliação automática e humana demonstram a superioridade do ConsistI2V em relação aos métodos existentes.
English
Image-to-video (I2V) generation aims to use the initial frame (alongside a text prompt) to create a video sequence. A grand challenge in I2V generation is to maintain visual consistency throughout the video: existing methods often struggle to preserve the integrity of the subject, background, and style from the first frame, as well as ensure a fluid and logical progression within the video narrative. To mitigate these issues, we propose ConsistI2V, a diffusion-based method to enhance visual consistency for I2V generation. Specifically, we introduce (1) spatiotemporal attention over the first frame to maintain spatial and motion consistency, (2) noise initialization from the low-frequency band of the first frame to enhance layout consistency. These two approaches enable ConsistI2V to generate highly consistent videos. We also extend the proposed approaches to show their potential to improve consistency in auto-regressive long video generation and camera motion control. To verify the effectiveness of our method, we propose I2V-Bench, a comprehensive evaluation benchmark for I2V generation. Our automatic and human evaluation results demonstrate the superiority of ConsistI2V over existing methods.
PDF262February 8, 2026