Vielseitige Bearbeitung von Videoinhalten, Aktionen und Dynamiken ohne Training

Zusammenfassung

Die gesteuerte Videogenerierung hat in den letzten Jahren drastische Verbesserungen erfahren. Dennoch bleibt die Bearbeitung von Aktionen und dynamischen Ereignissen oder das Einfügen von Inhalten, die das Verhalten anderer Objekte in realen Videos beeinflussen sollten, eine große Herausforderung. Bestehende trainierte Modelle haben Schwierigkeiten mit komplexen Bearbeitungen, was wahrscheinlich auf die Schwierigkeit zurückzuführen ist, relevante Trainingsdaten zu sammeln. Ebenso sind bestehende trainingsfreie Methoden inhärent auf struktur- und bewegungserhaltende Bearbeitungen beschränkt und unterstützen keine Änderung der Bewegung oder Interaktionen. Hier stellen wir DynaEdit vor, eine trainingsfreie Bearbeitungsmethode, die vielseitige Videobearbeitungsfähigkeiten mit vortrainierten Text-zu-Video-Flow-Modellen freisetzt. Unsere Methode basiert auf dem kürzlich eingeführten inversionsfreien Ansatz, der nicht in die Modellinterna eingreift und somit modellagnostisch ist. Wir zeigen, dass ein naiver Versuch, diesen Ansatz auf allgemeine, uneingeschränkte Bearbeitung anzupassen, zu schwerer Niederfrequenz-Fehlausrichtung und Hochfrequenz-Flimmern führt. Wir erklären die Ursachen für diese Phänomene und führen neuartige Mechanismen zu ihrer Überwindung ein. Durch umfangreiche Experimente zeigen wir, dass DynaEdit bei komplexen textbasierten Videobearbeitungsaufgaben state-of-the-art Ergebnisse erzielt, einschließlich der Modifikation von Aktionen, dem Einfügen von Objekten, die mit der Szene interagieren, und der Einführung globaler Effekte.

English

Controlled video generation has seen drastic improvements in recent years. However, editing actions and dynamic events, or inserting contents that should affect the behaviors of other objects in real-world videos, remains a major challenge. Existing trained models struggle with complex edits, likely due to the difficulty of collecting relevant training data. Similarly, existing training-free methods are inherently restricted to structure- and motion-preserving edits and do not support modification of motion or interactions. Here, we introduce DynaEdit, a training-free editing method that unlocks versatile video editing capabilities with pretrained text-to-video flow models. Our method relies on the recently introduced inversion-free approach, which does not intervene in the model internals, and is thus model-agnostic. We show that naively attempting to adapt this approach to general unconstrained editing results in severe low-frequency misalignment and high-frequency jitter. We explain the sources for these phenomena and introduce novel mechanisms for overcoming them. Through extensive experiments, we show that DynaEdit achieves state-of-the-art results on complex text-based video editing tasks, including modifying actions, inserting objects that interact with the scene, and introducing global effects.

Vielseitige Bearbeitung von Videoinhalten, Aktionen und Dynamiken ohne Training

Versatile Editing of Video Content, Actions, and Dynamics without Training

Zusammenfassung

Support