SG-I2V: Selbstgesteuerte Trajektorienkontrolle in der Bild-zu-Video-Generierung
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation
November 7, 2024
papers.authors: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI
papers.abstract
Methoden zur Bild-zu-Video-Generierung haben beeindruckende, fotorealistische Qualität erreicht. Die Anpassung spezifischer Elemente in generierten Videos, wie Objektbewegungen oder Kamerabewegungen, ist jedoch oft ein mühsamer Prozess von Versuch und Irrtum, z. B. durch das erneute Generieren von Videos mit verschiedenen Zufallsinitialisierungen. Neuere Techniken adressieren dieses Problem, indem ein vortrainiertes Modell feinabgestimmt wird, um Konditionierungssignale wie Begrenzungsrahmen oder Punktverläufe zu befolgen. Dennoch kann dieses Feinabstimmungsverfahren rechenintensiv sein und erfordert Datensätze mit annotierten Objektbewegungen, die schwer zu beschaffen sein können. In dieser Arbeit stellen wir SG-I2V vor, ein Framework für kontrollierbare Bild-zu-Video-Generierung, das selbstgesteuert ist – es bietet Null-Shot-Kontrolle, indem es sich ausschließlich auf das Wissen stützt, das in einem vortrainierten Bild-zu-Video-Diffusionsmodell vorhanden ist, ohne dass eine Feinabstimmung oder externes Wissen erforderlich ist. Unsere Null-Shot-Methode übertrifft unüberwachte Baselines und ist in Bezug auf visuelle Qualität und Bewegungsgenauigkeit mit überwachten Modellen vergleichbar.
English
Methods for image-to-video generation have achieved impressive,
photo-realistic quality. However, adjusting specific elements in generated
videos, such as object motion or camera movement, is often a tedious process of
trial and error, e.g., involving re-generating videos with different random
seeds. Recent techniques address this issue by fine-tuning a pre-trained model
to follow conditioning signals, such as bounding boxes or point trajectories.
Yet, this fine-tuning procedure can be computationally expensive, and it
requires datasets with annotated object motion, which can be difficult to
procure. In this work, we introduce SG-I2V, a framework for controllable
image-to-video generation that is self-guidedx2013offering
zero-shot control by relying solely on the knowledge present in a pre-trained
image-to-video diffusion model without the need for fine-tuning or external
knowledge. Our zero-shot method outperforms unsupervised baselines while being
competitive with supervised models in terms of visual quality and motion
fidelity.