ChatPaper.aiChatPaper

STR-Match: Matching SpatioTemporele Relevantiescore voor Trainingsvrije Videobewerking

STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing

June 28, 2025
Auteurs: Junsung Lee, Junoh Kang, Bohyung Han
cs.AI

Samenvatting

Eerdere methoden voor tekstgestuurde videobewerking lijden vaak aan temporele inconsistentie, bewegingsvervorming en - vooral - beperkte domeintransformatie. Wij schrijven deze beperkingen toe aan onvoldoende modellering van spatiotemporele pixelrelevantie tijdens het bewerkingsproces. Om dit aan te pakken, stellen we STR-Match voor, een trainingsvrij video-bewerkingsalgoritme dat visueel aantrekkelijke en spatiotemporeel coherente video's produceert door middel van latente optimalisatie geleid door onze nieuwe STR-score. De score vangt spatiotemporele pixelrelevantie over aangrenzende frames door gebruik te maken van 2D ruimtelijke aandacht en 1D temporele modules in tekst-naar-video (T2V) diffusiemodellen, zonder de overhead van rekenintensieve 3D aandachtmechanismen. Geïntegreerd in een latent optimalisatiekader met een latent masker, genereert STR-Match temporeel consistente en visueel getrouwe video's, waarbij sterke prestaties worden behouden zelfs onder significante domeintransformaties, terwijl belangrijke visuele attributen van de bron worden behouden. Uitgebreide experimenten tonen aan dat STR-Match consistent beter presteert dan bestaande methoden in zowel visuele kwaliteit als spatiotemporele consistentie.
English
Previous text-guided video editing methods often suffer from temporal inconsistency, motion distortion, and-most notably-limited domain transformation. We attribute these limitations to insufficient modeling of spatiotemporal pixel relevance during the editing process. To address this, we propose STR-Match, a training-free video editing algorithm that produces visually appealing and spatiotemporally coherent videos through latent optimization guided by our novel STR score. The score captures spatiotemporal pixel relevance across adjacent frames by leveraging 2D spatial attention and 1D temporal modules in text-to-video (T2V) diffusion models, without the overhead of computationally expensive 3D attention mechanisms. Integrated into a latent optimization framework with a latent mask, STR-Match generates temporally consistent and visually faithful videos, maintaining strong performance even under significant domain transformations while preserving key visual attributes of the source. Extensive experiments demonstrate that STR-Match consistently outperforms existing methods in both visual quality and spatiotemporal consistency.
PDF51July 3, 2025