STR-Match: 훈련 없이 비디오 편집을 위한 시공간 관련성 점수 매칭
STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing
June 28, 2025
저자: Junsung Lee, Junoh Kang, Bohyung Han
cs.AI
초록
이전의 텍스트 기반 비디오 편집 방법들은 종종 시간적 불일치, 움직임 왜곡, 그리고 가장 두드러지게는 제한된 도메인 변환 문제를 겪곤 했습니다. 우리는 이러한 한계를 편집 과정에서 시공간적 픽셀 관련성의 불충분한 모델링으로 인한 것으로 파악했습니다. 이를 해결하기 위해, 우리는 STR-Match라는 학습이 필요 없는 비디오 편색 알고리즘을 제안합니다. 이 알고리즘은 우리의 새로운 STR 점수에 기반한 잠재적 최적화를 통해 시각적으로 매력적이고 시공간적으로 일관된 비디오를 생성합니다. 이 점수는 텍스트-투-비디오(T2V) 확산 모델에서 2D 공간적 주의 메커니즘과 1D 시간적 모듈을 활용하여 인접 프레임 간의 시공간적 픽셀 관련성을 포착하며, 계산 비용이 많이 드는 3D 주의 메커니즘을 사용하지 않습니다. 잠재적 마스크와 함께 잠재적 최적화 프레임워크에 통합된 STR-Match는 시간적으로 일관되고 시각적으로 충실한 비디오를 생성하며, 중요한 도메인 변환에서도 강력한 성능을 유지하면서 소스의 주요 시각적 속성을 보존합니다. 광범위한 실험을 통해 STR-Match가 시각적 품질과 시공간적 일관성 모두에서 기존 방법들을 꾸준히 능가함을 입증했습니다.
English
Previous text-guided video editing methods often suffer from temporal
inconsistency, motion distortion, and-most notably-limited domain
transformation. We attribute these limitations to insufficient modeling of
spatiotemporal pixel relevance during the editing process. To address this, we
propose STR-Match, a training-free video editing algorithm that produces
visually appealing and spatiotemporally coherent videos through latent
optimization guided by our novel STR score. The score captures spatiotemporal
pixel relevance across adjacent frames by leveraging 2D spatial attention and
1D temporal modules in text-to-video (T2V) diffusion models, without the
overhead of computationally expensive 3D attention mechanisms. Integrated into
a latent optimization framework with a latent mask, STR-Match generates
temporally consistent and visually faithful videos, maintaining strong
performance even under significant domain transformations while preserving key
visual attributes of the source. Extensive experiments demonstrate that
STR-Match consistently outperforms existing methods in both visual quality and
spatiotemporal consistency.