SG-I2V: Zelfgestuurde trajectcontrole in beeld-naar-video-generatie

Samenvatting

Methoden voor beeld-naar-video-generatie hebben indrukwekkende, fotorealistische kwaliteit bereikt. Het aanpassen van specifieke elementen in gegenereerde video's, zoals objectbeweging of camerabeweging, is echter vaak een moeizaam proces van trial-and-error, bijvoorbeeld door video's opnieuw te genereren met verschillende willekeurige seeds. Recente technieken pakken dit probleem aan door een vooraf getraind model af te stemmen om conditioneringssignalen te volgen, zoals begrenzingskaders of puntentrajecten. Deze afstemprocedure kan echter rekenintensief zijn en vereist datasets met geannoteerde objectbeweging, die moeilijk verkrijgbaar kunnen zijn. In dit werk introduceren we SG-I2V, een raamwerk voor controleerbare beeld-naar-video-generatie dat zelfgestuurd is – het biedt zero-shot-controle door uitsluitend te vertrouwen op de kennis aanwezig in een vooraf getraind beeld-naar-video-diffusiemodel, zonder afstemming of externe kennis nodig te hebben. Onze zero-shot-methode overtreft niet-gesuperviseerde basislijnen en is concurrerend met gesuperviseerde modellen wat betreft visuele kwaliteit en bewegingsnauwkeurigheid.

English

Methods for image-to-video generation have achieved impressive, photo-realistic quality. However, adjusting specific elements in generated videos, such as object motion or camera movement, is often a tedious process of trial and error, e.g., involving re-generating videos with different random seeds. Recent techniques address this issue by fine-tuning a pre-trained model to follow conditioning signals, such as bounding boxes or point trajectories. Yet, this fine-tuning procedure can be computationally expensive, and it requires datasets with annotated object motion, which can be difficult to procure. In this work, we introduce SG-I2V, a framework for controllable image-to-video generation that is self-guidedx2013offering zero-shot control by relying solely on the knowledge present in a pre-trained image-to-video diffusion model without the need for fine-tuning or external knowledge. Our zero-shot method outperforms unsupervised baselines while being competitive with supervised models in terms of visual quality and motion fidelity.

SG-I2V: Zelfgestuurde trajectcontrole in beeld-naar-video-generatie

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

Samenvatting

Support