Édition polyvalente du contenu, des actions et de la dynamique vidéo sans apprentissage

Résumé

La génération contrôlée de vidéos a connu des améliorations spectaculaires ces dernières années. Cependant, modifier des actions et des événements dynamiques, ou insérer des éléments qui devraient influencer le comportement d'autres objets dans des vidéos du monde réel, reste un défi majeur. Les modèles existants entraînés peinent à réaliser des modifications complexes, probablement en raison de la difficulté à collecter des données d'entraînement pertinentes. De même, les méthodes existantes sans entraînement sont intrinsèquement limitées à des modifications préservant la structure et le mouvement et ne permettent pas de modifier le mouvement ou les interactions. Nous présentons ici DynaEdit, une méthode d'édition sans entraînement qui déverrouille des capacités d'édition vidéo polyvalentes avec des modèles de flux vidéo texte-à-vidéo pré-entraînés. Notre méthode s'appuie sur l'approche récemment introduite sans inversion, qui n'intervient pas dans les mécanismes internes du modèle, et est donc agnostique au modèle. Nous montrons qu'une tentative naïve d'adapter cette approche à une édition générale non contrainte entraîne un grave désalignement basse fréquence et un scintillement haute fréquence. Nous expliquons les origines de ces phénomènes et introduisons de nouveaux mécanismes pour les surmonter. Grâce à des expériences approfondies, nous montrons que DynaEdit obtient des résultats state-of-the-art sur des tâches complexes d'édition vidéo basée sur le texte, incluant la modification d'actions, l'insertion d'objets interagissant avec la scène et l'introduction d'effets globaux.

English

Controlled video generation has seen drastic improvements in recent years. However, editing actions and dynamic events, or inserting contents that should affect the behaviors of other objects in real-world videos, remains a major challenge. Existing trained models struggle with complex edits, likely due to the difficulty of collecting relevant training data. Similarly, existing training-free methods are inherently restricted to structure- and motion-preserving edits and do not support modification of motion or interactions. Here, we introduce DynaEdit, a training-free editing method that unlocks versatile video editing capabilities with pretrained text-to-video flow models. Our method relies on the recently introduced inversion-free approach, which does not intervene in the model internals, and is thus model-agnostic. We show that naively attempting to adapt this approach to general unconstrained editing results in severe low-frequency misalignment and high-frequency jitter. We explain the sources for these phenomena and introduce novel mechanisms for overcoming them. Through extensive experiments, we show that DynaEdit achieves state-of-the-art results on complex text-based video editing tasks, including modifying actions, inserting objects that interact with the scene, and introducing global effects.

Édition polyvalente du contenu, des actions et de la dynamique vidéo sans apprentissage

Versatile Editing of Video Content, Actions, and Dynamics without Training

Résumé

Support