Veelzijdig bewerken van video-inhoud, acties en dynamiek zonder training

Samenvatting

Gecontroleerde videogeneratie heeft de afgelopen jaren een drastische vooruitgang geboekt. Het bewerken van acties en dynamische gebeurtenissen, of het invoegen van inhoud die het gedrag van andere objecten in real-world video's zou moeten beïnvloeden, blijft echter een grote uitdaging. Bestaande getrainde modellen worstelen met complexe bewerkingen, waarschijnlijk vanwege de moeilijkheid om relevante trainingsdata te verzamelen. Evenzo zijn bestaande trainingsvrije methoden inherent beperkt tot bewerkingen die structuur en beweging behouden en ondersteunen zij geen wijziging van beweging of interacties. Hier introduceren wij DynaEdit, een trainingsvrije bewerkingsmethode die veelzijdige videobewerkingsmogelijkheden ontsluit met vooraf getrainde tekst-naar-video flowmodellen. Onze methode steunt op de recent geïntroduceerde inversievrije aanpak, die niet ingrijpt in de interne werking van het model en dus model-agnostisch is. Wij tonen aan dat een naïeve poging om deze aanpak aan te passen voor algemene, onbeperkte bewerking resulteert in ernstige low-frequency uitlijningfouten en high-frequency jitter. Wij verklaren de bronnen van deze fenomenen en introduceren nieuwe mechanismen om ze te overwinnen. Door middel van uitgebreide experimenten tonen wij aan dat DynaEdit state-of-the-art resultaten behaalt voor complexe op tekst gebaseerde videobewerkingstaken, waaronder het wijzigen van acties, het invoegen van objecten die interacteren met de scène, en het introduceren van globale effecten.

English

Controlled video generation has seen drastic improvements in recent years. However, editing actions and dynamic events, or inserting contents that should affect the behaviors of other objects in real-world videos, remains a major challenge. Existing trained models struggle with complex edits, likely due to the difficulty of collecting relevant training data. Similarly, existing training-free methods are inherently restricted to structure- and motion-preserving edits and do not support modification of motion or interactions. Here, we introduce DynaEdit, a training-free editing method that unlocks versatile video editing capabilities with pretrained text-to-video flow models. Our method relies on the recently introduced inversion-free approach, which does not intervene in the model internals, and is thus model-agnostic. We show that naively attempting to adapt this approach to general unconstrained editing results in severe low-frequency misalignment and high-frequency jitter. We explain the sources for these phenomena and introduce novel mechanisms for overcoming them. Through extensive experiments, we show that DynaEdit achieves state-of-the-art results on complex text-based video editing tasks, including modifying actions, inserting objects that interact with the scene, and introducing global effects.

Veelzijdig bewerken van video-inhoud, acties en dynamiek zonder training

Versatile Editing of Video Content, Actions, and Dynamics without Training

Samenvatting

Support