Interpolazione Esplorativa di Tempo e Spazio

Abstract

Introduciamo la generazione delimitata come un compito generalizzato per controllare la generazione di video al fine di sintetizzare movimenti arbitrari della telecamera e del soggetto basandosi esclusivamente su un fotogramma iniziale e uno finale. Il nostro obiettivo è sfruttare appieno la capacità di generalizzazione intrinseca di un modello da immagine a video senza ulteriori addestramenti o messe a punto del modello originale. Questo è ottenuto attraverso una nuova strategia di campionamento proposta, che chiamiamo Fusione a Inversione Temporale, che fonde i percorsi di denoising temporali in avanti e all'indietro condizionati rispettivamente sul fotogramma iniziale e su quello finale. Il percorso fuso produce un video che collega fluidamente i due fotogrammi, generando interpolazioni di movimenti fedeli del soggetto, nuove visualizzazioni di scene statiche e loop video senza soluzione di continuità quando i due fotogrammi delimitanti sono identici. Abbiamo curato un dataset di valutazione diversificato di coppie di immagini e abbiamo confrontato il nostro metodo con le tecniche esistenti più vicine. Abbiamo riscontrato che la Fusione a Inversione Temporale supera i lavori correlati in tutti i sottocompiti, dimostrando la capacità di generare movimenti complessi e visualizzazioni 3D coerenti guidate da fotogrammi delimitanti. Visita la pagina del progetto all'indirizzo https://time-reversal.github.io.

English

We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.

Interpolazione Esplorativa di Tempo e Spazio

Explorative Inbetweening of Time and Space

Abstract

Support