STR-Match: Puntuación de Relevancia Espaciotemporal para la Edición de Vídeo sin Entrenamiento

Resumen

Los métodos anteriores de edición de videos guiados por texto a menudo sufren de inconsistencia temporal, distorsión de movimiento y, lo más notable, una transformación de dominio limitada. Atribuimos estas limitaciones a una modelización insuficiente de la relevancia espacio-temporal de los píxeles durante el proceso de edición. Para abordar esto, proponemos STR-Match, un algoritmo de edición de videos sin entrenamiento que produce videos visualmente atractivos y espaciotemporalmente coherentes mediante una optimización latente guiada por nuestra novedosa puntuación STR. Esta puntuación captura la relevancia espacio-temporal de los píxeles en fotogramas adyacentes al aprovechar módulos de atención espacial 2D y temporal 1D en modelos de difusión de texto a video (T2V), sin la sobrecarga de mecanismos de atención 3D computacionalmente costosos. Integrado en un marco de optimización latente con una máscara latente, STR-Match genera videos temporalmente consistentes y visualmente fieles, manteniendo un rendimiento sólido incluso bajo transformaciones de dominio significativas mientras preserva los atributos visuales clave de la fuente. Experimentos extensos demuestran que STR-Match supera consistentemente a los métodos existentes tanto en calidad visual como en coherencia espaciotemporal.

English

Previous text-guided video editing methods often suffer from temporal inconsistency, motion distortion, and-most notably-limited domain transformation. We attribute these limitations to insufficient modeling of spatiotemporal pixel relevance during the editing process. To address this, we propose STR-Match, a training-free video editing algorithm that produces visually appealing and spatiotemporally coherent videos through latent optimization guided by our novel STR score. The score captures spatiotemporal pixel relevance across adjacent frames by leveraging 2D spatial attention and 1D temporal modules in text-to-video (T2V) diffusion models, without the overhead of computationally expensive 3D attention mechanisms. Integrated into a latent optimization framework with a latent mask, STR-Match generates temporally consistent and visually faithful videos, maintaining strong performance even under significant domain transformations while preserving key visual attributes of the source. Extensive experiments demonstrate that STR-Match consistently outperforms existing methods in both visual quality and spatiotemporal consistency.

STR-Match: Puntuación de Relevancia Espaciotemporal para la Edición de Vídeo sin Entrenamiento

STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing

Resumen

Support