ChatPaper.aiChatPaper

SG-I2V: Controle Autoguiado de Trajetória na Geração de Imagem para Vídeo

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

November 7, 2024
Autores: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI

Resumo

Os métodos de geração de vídeo a partir de imagem alcançaram qualidade impressionante e fotorrealista. No entanto, ajustar elementos específicos em vídeos gerados, como o movimento de objetos ou a movimentação da câmera, geralmente é um processo tedioso de tentativa e erro, por exemplo, envolvendo a re-geração de vídeos com diferentes sementes aleatórias. Técnicas recentes abordam essa questão através do ajuste fino de um modelo pré-treinado para seguir sinais de condicionamento, como caixas delimitadoras ou trajetórias de pontos. No entanto, este procedimento de ajuste fino pode ser computacionalmente dispendioso e requer conjuntos de dados com movimento de objetos anotados, que podem ser difíceis de obter. Neste trabalho, apresentamos o SG-I2V, uma estrutura para geração controlada de vídeo a partir de imagem que é autoguiada – oferecendo controle zero-shot ao depender exclusivamente do conhecimento presente em um modelo de difusão de vídeo a partir de imagem pré-treinado, sem a necessidade de ajuste fino ou conhecimento externo. Nosso método zero-shot supera as linhas de base não supervisionadas enquanto se mostra competitivo com modelos supervisionados em termos de qualidade visual e fidelidade de movimento.
English
Methods for image-to-video generation have achieved impressive, photo-realistic quality. However, adjusting specific elements in generated videos, such as object motion or camera movement, is often a tedious process of trial and error, e.g., involving re-generating videos with different random seeds. Recent techniques address this issue by fine-tuning a pre-trained model to follow conditioning signals, such as bounding boxes or point trajectories. Yet, this fine-tuning procedure can be computationally expensive, and it requires datasets with annotated object motion, which can be difficult to procure. In this work, we introduce SG-I2V, a framework for controllable image-to-video generation that is self-guidedx2013offering zero-shot control by relying solely on the knowledge present in a pre-trained image-to-video diffusion model without the need for fine-tuning or external knowledge. Our zero-shot method outperforms unsupervised baselines while being competitive with supervised models in terms of visual quality and motion fidelity.
PDF154December 4, 2025