STR-Match: Puntuación de Relevancia Espaciotemporal para la Edición de Vídeo sin Entrenamiento
STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing
June 28, 2025
Autores: Junsung Lee, Junoh Kang, Bohyung Han
cs.AI
Resumen
Los métodos anteriores de edición de videos guiados por texto a menudo sufren de inconsistencia temporal, distorsión de movimiento y, lo más notable, una transformación de dominio limitada. Atribuimos estas limitaciones a una modelización insuficiente de la relevancia espacio-temporal de los píxeles durante el proceso de edición. Para abordar esto, proponemos STR-Match, un algoritmo de edición de videos sin entrenamiento que produce videos visualmente atractivos y espaciotemporalmente coherentes mediante una optimización latente guiada por nuestra novedosa puntuación STR. Esta puntuación captura la relevancia espacio-temporal de los píxeles en fotogramas adyacentes al aprovechar módulos de atención espacial 2D y temporal 1D en modelos de difusión de texto a video (T2V), sin la sobrecarga de mecanismos de atención 3D computacionalmente costosos. Integrado en un marco de optimización latente con una máscara latente, STR-Match genera videos temporalmente consistentes y visualmente fieles, manteniendo un rendimiento sólido incluso bajo transformaciones de dominio significativas mientras preserva los atributos visuales clave de la fuente. Experimentos extensos demuestran que STR-Match supera consistentemente a los métodos existentes tanto en calidad visual como en coherencia espaciotemporal.
English
Previous text-guided video editing methods often suffer from temporal
inconsistency, motion distortion, and-most notably-limited domain
transformation. We attribute these limitations to insufficient modeling of
spatiotemporal pixel relevance during the editing process. To address this, we
propose STR-Match, a training-free video editing algorithm that produces
visually appealing and spatiotemporally coherent videos through latent
optimization guided by our novel STR score. The score captures spatiotemporal
pixel relevance across adjacent frames by leveraging 2D spatial attention and
1D temporal modules in text-to-video (T2V) diffusion models, without the
overhead of computationally expensive 3D attention mechanisms. Integrated into
a latent optimization framework with a latent mask, STR-Match generates
temporally consistent and visually faithful videos, maintaining strong
performance even under significant domain transformations while preserving key
visual attributes of the source. Extensive experiments demonstrate that
STR-Match consistently outperforms existing methods in both visual quality and
spatiotemporal consistency.