STR-Match: Matching SpatioTemporele Relevantiescore voor Trainingsvrije Videobewerking
STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing
June 28, 2025
Auteurs: Junsung Lee, Junoh Kang, Bohyung Han
cs.AI
Samenvatting
Eerdere methoden voor tekstgestuurde videobewerking lijden vaak aan temporele
inconsistentie, bewegingsvervorming en - vooral - beperkte domeintransformatie.
Wij schrijven deze beperkingen toe aan onvoldoende modellering van
spatiotemporele pixelrelevantie tijdens het bewerkingsproces. Om dit aan te
pakken, stellen we STR-Match voor, een trainingsvrij video-bewerkingsalgoritme
dat visueel aantrekkelijke en spatiotemporeel coherente video's produceert
door middel van latente optimalisatie geleid door onze nieuwe STR-score. De
score vangt spatiotemporele pixelrelevantie over aangrenzende frames door
gebruik te maken van 2D ruimtelijke aandacht en 1D temporele modules in
tekst-naar-video (T2V) diffusiemodellen, zonder de overhead van rekenintensieve
3D aandachtmechanismen. Geïntegreerd in een latent optimalisatiekader met een
latent masker, genereert STR-Match temporeel consistente en visueel getrouwe
video's, waarbij sterke prestaties worden behouden zelfs onder significante
domeintransformaties, terwijl belangrijke visuele attributen van de bron worden
behouden. Uitgebreide experimenten tonen aan dat STR-Match consistent beter
presteert dan bestaande methoden in zowel visuele kwaliteit als
spatiotemporele consistentie.
English
Previous text-guided video editing methods often suffer from temporal
inconsistency, motion distortion, and-most notably-limited domain
transformation. We attribute these limitations to insufficient modeling of
spatiotemporal pixel relevance during the editing process. To address this, we
propose STR-Match, a training-free video editing algorithm that produces
visually appealing and spatiotemporally coherent videos through latent
optimization guided by our novel STR score. The score captures spatiotemporal
pixel relevance across adjacent frames by leveraging 2D spatial attention and
1D temporal modules in text-to-video (T2V) diffusion models, without the
overhead of computationally expensive 3D attention mechanisms. Integrated into
a latent optimization framework with a latent mask, STR-Match generates
temporally consistent and visually faithful videos, maintaining strong
performance even under significant domain transformations while preserving key
visual attributes of the source. Extensive experiments demonstrate that
STR-Match consistently outperforms existing methods in both visual quality and
spatiotemporal consistency.