Videoerstellung durch Demonstration
Video Creation by Demonstration
December 12, 2024
Autoren: Yihong Sun, Hao Zhou, Liangzhe Yuan, Jennifer J. Sun, Yandong Li, Xuhui Jia, Hartwig Adam, Bharath Hariharan, Long Zhao, Ting Liu
cs.AI
Zusammenfassung
Wir erforschen eine neuartige Videoerstellungserfahrung, nämlich die Videoerstellung durch Demonstration. Ausgehend von einem Demonstrationsvideo und einem Kontextbild aus einer anderen Szene generieren wir ein physikalisch plausibles Video, das natürlich an das Kontextbild anknüpft und die Handlungskonzepte der Demonstration ausführt. Um diese Fähigkeit zu ermöglichen, präsentieren wir Delta-Diffusion, einen selbstüberwachten Trainingsansatz, der aus unbeschrifteten Videos durch bedingte Vorhersage zukünftiger Frames lernt. Im Gegensatz zu den meisten bestehenden Steuerungen für die Videogenerierung, die auf expliziten Signalen basieren, verwenden wir die Form impliziter latenter Steuerung für maximale Flexibilität und Ausdruckskraft, die für allgemeine Videos erforderlich sind. Durch die Nutzung eines Video-Grundlagenmodells mit einem Erscheinungsengpass-Design oben drauf extrahieren wir Handlungs-Latenzen aus Demonstrationsvideos, um den Generierungsprozess mit minimaler Erscheinungsleckage zu konditionieren. Empirisch übertrifft Delta-Diffusion verwandte Baselines sowohl in Bezug auf die menschliche Präferenz als auch auf groß angelegte maschinelle Bewertungen und zeigt Potenziale für die interaktive Weltsimulation auf. Beispiele für generierte Videos sind unter https://delta-diffusion.github.io/ verfügbar.
English
We explore a novel video creation experience, namely Video Creation by
Demonstration. Given a demonstration video and a context image from a different
scene, we generate a physically plausible video that continues naturally from
the context image and carries out the action concepts from the demonstration.
To enable this capability, we present delta-Diffusion, a self-supervised
training approach that learns from unlabeled videos by conditional future frame
prediction. Unlike most existing video generation controls that are based on
explicit signals, we adopts the form of implicit latent control for maximal
flexibility and expressiveness required by general videos. By leveraging a
video foundation model with an appearance bottleneck design on top, we extract
action latents from demonstration videos for conditioning the generation
process with minimal appearance leakage. Empirically, delta-Diffusion
outperforms related baselines in terms of both human preference and large-scale
machine evaluations, and demonstrates potentials towards interactive world
simulation. Sampled video generation results are available at
https://delta-diffusion.github.io/.Summary
AI-Generated Summary