Videoerstellung durch Demonstration

papers.abstract

Wir erforschen eine neuartige Videoerstellungserfahrung, nämlich die Videoerstellung durch Demonstration. Ausgehend von einem Demonstrationsvideo und einem Kontextbild aus einer anderen Szene generieren wir ein physikalisch plausibles Video, das natürlich an das Kontextbild anknüpft und die Handlungskonzepte der Demonstration ausführt. Um diese Fähigkeit zu ermöglichen, präsentieren wir Delta-Diffusion, einen selbstüberwachten Trainingsansatz, der aus unbeschrifteten Videos durch bedingte Vorhersage zukünftiger Frames lernt. Im Gegensatz zu den meisten bestehenden Steuerungen für die Videogenerierung, die auf expliziten Signalen basieren, verwenden wir die Form impliziter latenter Steuerung für maximale Flexibilität und Ausdruckskraft, die für allgemeine Videos erforderlich sind. Durch die Nutzung eines Video-Grundlagenmodells mit einem Erscheinungsengpass-Design oben drauf extrahieren wir Handlungs-Latenzen aus Demonstrationsvideos, um den Generierungsprozess mit minimaler Erscheinungsleckage zu konditionieren. Empirisch übertrifft Delta-Diffusion verwandte Baselines sowohl in Bezug auf die menschliche Präferenz als auch auf groß angelegte maschinelle Bewertungen und zeigt Potenziale für die interaktive Weltsimulation auf. Beispiele für generierte Videos sind unter https://delta-diffusion.github.io/ verfügbar.

English

We explore a novel video creation experience, namely Video Creation by Demonstration. Given a demonstration video and a context image from a different scene, we generate a physically plausible video that continues naturally from the context image and carries out the action concepts from the demonstration. To enable this capability, we present delta-Diffusion, a self-supervised training approach that learns from unlabeled videos by conditional future frame prediction. Unlike most existing video generation controls that are based on explicit signals, we adopts the form of implicit latent control for maximal flexibility and expressiveness required by general videos. By leveraging a video foundation model with an appearance bottleneck design on top, we extract action latents from demonstration videos for conditioning the generation process with minimal appearance leakage. Empirically, delta-Diffusion outperforms related baselines in terms of both human preference and large-scale machine evaluations, and demonstrates potentials towards interactive world simulation. Sampled video generation results are available at https://delta-diffusion.github.io/.