SG-I2V: Zelfgestuurde trajectcontrole in beeld-naar-video-generatie
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation
November 7, 2024
Auteurs: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI
Samenvatting
Methoden voor beeld-naar-video-generatie hebben indrukwekkende, fotorealistische kwaliteit bereikt. Het aanpassen van specifieke elementen in gegenereerde video's, zoals objectbeweging of camerabeweging, is echter vaak een moeizaam proces van trial-and-error, bijvoorbeeld door video's opnieuw te genereren met verschillende willekeurige seeds. Recente technieken pakken dit probleem aan door een vooraf getraind model af te stemmen om conditioneringssignalen te volgen, zoals begrenzingskaders of puntentrajecten. Deze afstemprocedure kan echter rekenintensief zijn en vereist datasets met geannoteerde objectbeweging, die moeilijk verkrijgbaar kunnen zijn. In dit werk introduceren we SG-I2V, een raamwerk voor controleerbare beeld-naar-video-generatie dat zelfgestuurd is – het biedt zero-shot-controle door uitsluitend te vertrouwen op de kennis aanwezig in een vooraf getraind beeld-naar-video-diffusiemodel, zonder afstemming of externe kennis nodig te hebben. Onze zero-shot-methode overtreft niet-gesuperviseerde basislijnen en is concurrerend met gesuperviseerde modellen wat betreft visuele kwaliteit en bewegingsnauwkeurigheid.
English
Methods for image-to-video generation have achieved impressive,
photo-realistic quality. However, adjusting specific elements in generated
videos, such as object motion or camera movement, is often a tedious process of
trial and error, e.g., involving re-generating videos with different random
seeds. Recent techniques address this issue by fine-tuning a pre-trained model
to follow conditioning signals, such as bounding boxes or point trajectories.
Yet, this fine-tuning procedure can be computationally expensive, and it
requires datasets with annotated object motion, which can be difficult to
procure. In this work, we introduce SG-I2V, a framework for controllable
image-to-video generation that is self-guidedx2013offering
zero-shot control by relying solely on the knowledge present in a pre-trained
image-to-video diffusion model without the need for fine-tuning or external
knowledge. Our zero-shot method outperforms unsupervised baselines while being
competitive with supervised models in terms of visual quality and motion
fidelity.