Edición versátil de contenido, acciones y dinámicas de vídeo sin entrenamiento

Resumen

La generación controlada de vídeos ha experimentado mejoras drásticas en los últimos años. Sin embargo, editar acciones y eventos dinámicos, o insertar contenidos que deberían afectar el comportamiento de otros objetos en vídeos del mundo real, sigue siendo un desafío importante. Los modelos entrenados existentes tienen dificultades con ediciones complejas, probablemente debido a la dificultad de recopilar datos de entrenamiento relevantes. De manera similar, los métodos existentes que no requieren entrenamiento están inherentemente restringidos a ediciones que preservan la estructura y el movimiento, y no admiten la modificación del movimiento o las interacciones. Aquí presentamos DynaEdit, un método de edición que no requiere entrenamiento y que desbloquea capacidades versátiles de edición de vídeo con modelos preentrenados de flujo texto-a-vídeo. Nuestro método se basa en el enfoque recientemente introducido libre de inversión, que no interviene en los componentes internos del modelo y, por lo tanto, es independiente del modelo. Demostramos que intentar adaptar este enfoque de manera ingenua a la edición general sin restricciones resulta en una grave desalineación de baja frecuencia y parpadeo de alta frecuencia. Explicamos las fuentes de estos fenómenos e introducimos nuevos mecanismos para superarlos. A través de experimentos exhaustivos, mostramos que DynaEdit logra resultados de vanguardia en tareas complejas de edición de vídeo basadas en texto, incluyendo la modificación de acciones, la inserción de objetos que interactúan con la escena y la introducción de efectos globales.

English

Controlled video generation has seen drastic improvements in recent years. However, editing actions and dynamic events, or inserting contents that should affect the behaviors of other objects in real-world videos, remains a major challenge. Existing trained models struggle with complex edits, likely due to the difficulty of collecting relevant training data. Similarly, existing training-free methods are inherently restricted to structure- and motion-preserving edits and do not support modification of motion or interactions. Here, we introduce DynaEdit, a training-free editing method that unlocks versatile video editing capabilities with pretrained text-to-video flow models. Our method relies on the recently introduced inversion-free approach, which does not intervene in the model internals, and is thus model-agnostic. We show that naively attempting to adapt this approach to general unconstrained editing results in severe low-frequency misalignment and high-frequency jitter. We explain the sources for these phenomena and introduce novel mechanisms for overcoming them. Through extensive experiments, we show that DynaEdit achieves state-of-the-art results on complex text-based video editing tasks, including modifying actions, inserting objects that interact with the scene, and introducing global effects.

Edición versátil de contenido, acciones y dinámicas de vídeo sin entrenamiento

Versatile Editing of Video Content, Actions, and Dynamics without Training

Resumen

Support