ChatPaper.aiChatPaper

SG-I2V : Contrôle autoguidé des trajectoires dans la génération d'images vers vidéo

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

November 7, 2024
papers.authors: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI

papers.abstract

Les méthodes de génération d'images vers vidéos ont atteint une qualité impressionnante et photoréaliste. Cependant, ajuster des éléments spécifiques dans les vidéos générées, tels que le mouvement des objets ou le déplacement de la caméra, est souvent un processus fastidieux d'essais et d'erreurs, impliquant par exemple la régénération de vidéos avec différentes graines aléatoires. Des techniques récentes abordent ce problème en affinant un modèle pré-entraîné pour suivre des signaux de conditionnement, tels que des boîtes englobantes ou des trajectoires de points. Pourtant, cette procédure d'affinage peut être coûteuse en calcul et nécessite des ensembles de données avec des mouvements d'objets annotés, qui peuvent être difficiles à obtenir. Dans ce travail, nous présentons SG-I2V, un cadre pour la génération contrôlée d'images vers vidéos qui est auto-guidé, offrant un contrôle en zero-shot en s'appuyant uniquement sur les connaissances présentes dans un modèle de diffusion pré-entraîné, sans nécessiter d'affinage ou de connaissances externes. Notre méthode zero-shot surpasse les bases de référence non supervisées tout en étant compétitive avec les modèles supervisés en termes de qualité visuelle et de fidélité du mouvement.
English
Methods for image-to-video generation have achieved impressive, photo-realistic quality. However, adjusting specific elements in generated videos, such as object motion or camera movement, is often a tedious process of trial and error, e.g., involving re-generating videos with different random seeds. Recent techniques address this issue by fine-tuning a pre-trained model to follow conditioning signals, such as bounding boxes or point trajectories. Yet, this fine-tuning procedure can be computationally expensive, and it requires datasets with annotated object motion, which can be difficult to procure. In this work, we introduce SG-I2V, a framework for controllable image-to-video generation that is self-guidedx2013offering zero-shot control by relying solely on the knowledge present in a pre-trained image-to-video diffusion model without the need for fine-tuning or external knowledge. Our zero-shot method outperforms unsupervised baselines while being competitive with supervised models in terms of visual quality and motion fidelity.
PDF154December 4, 2025