ChatPaper.aiChatPaper

Explorative Zwischenzeichnung von Zeit und Raum

Explorative Inbetweening of Time and Space

March 21, 2024
Autoren: Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang
cs.AI

Zusammenfassung

Wir führen die begrenzte Generierung als eine verallgemeinerte Aufgabe zur Steuerung der Videogenerierung ein, um beliebige Kamera- und Subjektbewegungen zu synthetisieren, basierend nur auf einem gegebenen Start- und Endbild. Unser Ziel ist es, die inhärente Verallgemeinerungsfähigkeit eines Bild-zu-Video-Modells voll auszuschöpfen, ohne zusätzliches Training oder Feinabstimmung des Originalmodells. Dies wird durch die vorgeschlagene neue Abtaststrategie erreicht, die wir als Zeitumkehrfusion bezeichnen, die die zeitlich vorwärts und rückwärts gerichteten Denoising-Pfade unter Berücksichtigung des Start- bzw. Endbildes verschmilzt. Der fusionierte Pfad führt zu einem Video, das die beiden Bilder nahtlos verbindet, Zwischenbilder einer treuen Bewegung des Subjekts erzeugt, neue Ansichten statischer Szenen bietet und ein nahtloses Videolooping ermöglicht, wenn die beiden Begrenzungsrahmen identisch sind. Wir stellen einen vielfältigen Evaluierungsdatensatz von Bildpaaren zusammen und vergleichen ihn mit den ähnlichsten bestehenden Methoden. Wir stellen fest, dass die Zeitumkehrfusion alle Teilaufgaben besser als verwandte Arbeiten bewältigt und die Fähigkeit zeigt, komplexe Bewegungen und 3D-konsistente Ansichten, geleitet durch begrenzte Rahmen, zu generieren. Weitere Informationen finden Sie auf der Projektseite unter https://time-reversal.github.io.
English
We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.

Summary

AI-Generated Summary

PDF131December 15, 2024