ChatPaper.aiChatPaper

SG-I2V: Selbstgesteuerte Trajektorienkontrolle in der Bild-zu-Video-Generierung

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

November 7, 2024
papers.authors: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI

papers.abstract

Methoden zur Bild-zu-Video-Generierung haben beeindruckende, fotorealistische Qualität erreicht. Die Anpassung spezifischer Elemente in generierten Videos, wie Objektbewegungen oder Kamerabewegungen, ist jedoch oft ein mühsamer Prozess von Versuch und Irrtum, z. B. durch das erneute Generieren von Videos mit verschiedenen Zufallsinitialisierungen. Neuere Techniken adressieren dieses Problem, indem ein vortrainiertes Modell feinabgestimmt wird, um Konditionierungssignale wie Begrenzungsrahmen oder Punktverläufe zu befolgen. Dennoch kann dieses Feinabstimmungsverfahren rechenintensiv sein und erfordert Datensätze mit annotierten Objektbewegungen, die schwer zu beschaffen sein können. In dieser Arbeit stellen wir SG-I2V vor, ein Framework für kontrollierbare Bild-zu-Video-Generierung, das selbstgesteuert ist – es bietet Null-Shot-Kontrolle, indem es sich ausschließlich auf das Wissen stützt, das in einem vortrainierten Bild-zu-Video-Diffusionsmodell vorhanden ist, ohne dass eine Feinabstimmung oder externes Wissen erforderlich ist. Unsere Null-Shot-Methode übertrifft unüberwachte Baselines und ist in Bezug auf visuelle Qualität und Bewegungsgenauigkeit mit überwachten Modellen vergleichbar.
English
Methods for image-to-video generation have achieved impressive, photo-realistic quality. However, adjusting specific elements in generated videos, such as object motion or camera movement, is often a tedious process of trial and error, e.g., involving re-generating videos with different random seeds. Recent techniques address this issue by fine-tuning a pre-trained model to follow conditioning signals, such as bounding boxes or point trajectories. Yet, this fine-tuning procedure can be computationally expensive, and it requires datasets with annotated object motion, which can be difficult to procure. In this work, we introduce SG-I2V, a framework for controllable image-to-video generation that is self-guidedx2013offering zero-shot control by relying solely on the knowledge present in a pre-trained image-to-video diffusion model without the need for fine-tuning or external knowledge. Our zero-shot method outperforms unsupervised baselines while being competitive with supervised models in terms of visual quality and motion fidelity.
PDF154December 4, 2025