SG-I2V: Controllo autonomo della traiettoria nella generazione video da immagini
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation
November 7, 2024
Autori: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI
Abstract
I metodi per la generazione video da immagine hanno raggiunto una qualità impressionante e fotorealistica. Tuttavia, regolare elementi specifici nei video generati, come il movimento degli oggetti o quello della telecamera, è spesso un processo tedioso per tentativi ed errori, che ad esempio implica la rigenerazione di video con diversi semi casuali. Tecniche recenti affrontano questo problema effettuando il fine-tuning di un modello pre-addestrato per seguire segnali di condizionamento, come bounding box o traiettorie di punti. Tuttavia, questa procedura di fine-tuning può essere computazionalmente costosa e richiede dataset con annotazioni del movimento degli oggetti, che possono essere difficili da reperire. In questo lavoro, introduciamo SG-I2V, un framework per la generazione controllabile di video da immagine che è auto-guidato – offrendo controllo zero-shot basandosi esclusivamente sulla conoscenza presente in un modello di diffusione video da immagine pre-addestrato, senza necessità di fine-tuning o conoscenze esterne. Il nostro metodo zero-shot supera i baseline non supervisionati, risultando competitivo con i modelli supervisionati in termini di qualità visiva e fedeltà del movimento.
English
Methods for image-to-video generation have achieved impressive,
photo-realistic quality. However, adjusting specific elements in generated
videos, such as object motion or camera movement, is often a tedious process of
trial and error, e.g., involving re-generating videos with different random
seeds. Recent techniques address this issue by fine-tuning a pre-trained model
to follow conditioning signals, such as bounding boxes or point trajectories.
Yet, this fine-tuning procedure can be computationally expensive, and it
requires datasets with annotated object motion, which can be difficult to
procure. In this work, we introduce SG-I2V, a framework for controllable
image-to-video generation that is self-guidedx2013offering
zero-shot control by relying solely on the knowledge present in a pre-trained
image-to-video diffusion model without the need for fine-tuning or external
knowledge. Our zero-shot method outperforms unsupervised baselines while being
competitive with supervised models in terms of visual quality and motion
fidelity.